EBPocket / EBWin サポート掲示板（終了：閲覧のみ可）

タイトル	： xdoc2txt 2.12 PDFファイルの文字化けと字間判定の不具合
記事No	： 2387
投稿日	： 2015/08/25(Tue) 15:29:52
投稿者	： jtsu

お久しぶりです。2年以上ぶりの投稿です。
xdoc2txt 2.12を利用させていただいています。

PDFの文字化けと字間判定の不具合について2点報告させてください。
確認したPDFは公安調査庁の「内外情勢の回顧と展望（平成27年版）」です。URLは以下の通り。
http://www.moj.go.jp/content/001131174.pdf
-----------------------------------------------------------------------
・0xFFFFより大きいUnicode文字(追加面)を正しく変換できない。
　具体例として、公安調査庁長官の氏名に使われている「脇」の常用外漢字(U+266B0)が、
　UTF-8だと 0xEDBAB0 に変換されてしまう。UTF-16LEだと U+DEB0 に変換されてしまう。
・字間判定に一貫性がないようにみえる。
-----------------------------------------------------------------------
以上です。