記事No | : 880 |
タイトル | : PDF内の一部文字が抽出できない |
投稿日 | : 2016/07/06(Wed) 18:07:25 |
投稿者 | : shohei |
xdoc2txtをいつも利用させていただいております。ありがとうございます。
PDFからテキストを抽出している中で、
以下のような現象が発生しております。PDFの作りが悪い場合は
PDFを修正したいのですが、何が悪いのか分からず、質問させてください。
1.PDF内の数値部分が抽出できない項目がある。
PDF内に年月日や、金額など数値部分の文字列抽出ができないケースがあります。
例えば、2016年02月15日とPDF内に記載されている箇所をxdoc2txtで
文字列抽出すると、▲▲年▲▲月▲▲日(▲は半角スペース)となります。
また、1%と記載がある時、▲▲となってしまいます。(%も抽出できていない)
2.PDFからテキストが全く抽出できない。
コマンドラインでxdoc2txtを使用して、文字列抽出をしようとすると、
inflate: incorrect header check
error in <ファイル名>
とメッセージが出力され、PDFからテキストを抽出することができません。
1,2のファイルのプロパティを以下に記載いたします。
<概要>
PDF変換:iTextSharp 5.4.4 2000-2013 1T3XT BVBA (AGPL-version)
PDFのバージョン:1.4(Acrobat 5.x)
<セキュリティ>
<文書のセキュリティ>
文書セキュリティ:セキュリティ方法 パスワードによるセキュリティ
互換性があるバージョン: Acrobat5.0およびそれ以降
<文書に関する制限の概要>
印刷:許可
文書アセンブリ:許可しない
内容のコピー:許可
アクセシビリティのための内容の抽出:許可
ページの抽出:許可しない
注釈:許可しない
フォームフィールドの入力:許可しない
署名:許可しない
テンプレートページの作成:許可しない
他に必要な情報があればご指摘いただければ共有いたします。
よろしくお願いいたします。