タイトル | : xdoc2txt 2.12 PDFファイルの文字化けと字間判定の不具合 |
記事No | : 2387 |
投稿日 | : 2015/08/25(Tue) 15:29:52 |
投稿者 | : jtsu |
お久しぶりです。2年以上ぶりの投稿です。 xdoc2txt 2.12を利用させていただいています。
PDFの文字化けと字間判定の不具合について2点報告させてください。 確認したPDFは公安調査庁の「内外情勢の回顧と展望(平成27年版)」です。URLは以下の通り。 http://www.moj.go.jp/content/001131174.pdf ----------------------------------------------------------------------- ・0xFFFFより大きいUnicode文字(追加面)を正しく変換できない。 具体例として、公安調査庁長官の氏名に使われている「脇」の常用外漢字(U+266B0)が、 UTF-8だと 0xEDBAB0 に変換されてしまう。UTF-16LEだと U+DEB0 に変換されてしまう。 ・字間判定に一貫性がないようにみえる。 ----------------------------------------------------------------------- 以上です。
|