記事No | : 2387 |
タイトル | : xdoc2txt 2.12 PDFファイルの文字化けと字間判定の不具合 |
投稿日 | : 2015/08/25(Tue) 15:29:52 |
投稿者 | : jtsu |
お久しぶりです。2年以上ぶりの投稿です。
xdoc2txt 2.12を利用させていただいています。
PDFの文字化けと字間判定の不具合について2点報告させてください。
確認したPDFは公安調査庁の「内外情勢の回顧と展望(平成27年版)」です。URLは以下の通り。
http://www.moj.go.jp/content/001131174.pdf
-----------------------------------------------------------------------
・0xFFFFより大きいUnicode文字(追加面)を正しく変換できない。
具体例として、公安調査庁長官の氏名に使われている「脇」の常用外漢字(U+266B0)が、
UTF-8だと 0xEDBAB0 に変換されてしまう。UTF-16LEだと U+DEB0 に変換されてしまう。
・字間判定に一貫性がないようにみえる。
-----------------------------------------------------------------------
以上です。