[リストへもどる]
一括表示
タイトルxdoc2txt 2.12 PDFファイルの文字化けと字間判定の不具合
記事No2387
投稿日: 2015/08/25(Tue) 15:29:52
投稿者jtsu
お久しぶりです。2年以上ぶりの投稿です。
xdoc2txt 2.12を利用させていただいています。

PDFの文字化けと字間判定の不具合について2点報告させてください。
確認したPDFは公安調査庁の「内外情勢の回顧と展望(平成27年版)」です。URLは以下の通り。
http://www.moj.go.jp/content/001131174.pdf
-----------------------------------------------------------------------
・0xFFFFより大きいUnicode文字(追加面)を正しく変換できない。
 具体例として、公安調査庁長官の氏名に使われている「脇」の常用外漢字(U+266B0)が、
 UTF-8だと 0xEDBAB0 に変換されてしまう。UTF-16LEだと U+DEB0 に変換されてしまう。
・字間判定に一貫性がないようにみえる。
-----------------------------------------------------------------------
以上です。