タイトル | : PDF内の一部文字が抽出できない |
記事No | : 880 |
投稿日 | : 2016/07/06(Wed) 18:07:25 |
投稿者 | : shohei |
xdoc2txtをいつも利用させていただいております。ありがとうございます。 PDFからテキストを抽出している中で、 以下のような現象が発生しております。PDFの作りが悪い場合は PDFを修正したいのですが、何が悪いのか分からず、質問させてください。
1.PDF内の数値部分が抽出できない項目がある。 PDF内に年月日や、金額など数値部分の文字列抽出ができないケースがあります。 例えば、2016年02月15日とPDF内に記載されている箇所をxdoc2txtで 文字列抽出すると、▲▲年▲▲月▲▲日(▲は半角スペース)となります。 また、1%と記載がある時、▲▲となってしまいます。(%も抽出できていない)
2.PDFからテキストが全く抽出できない。 コマンドラインでxdoc2txtを使用して、文字列抽出をしようとすると、 inflate: incorrect header check error in <ファイル名> とメッセージが出力され、PDFからテキストを抽出することができません。
1,2のファイルのプロパティを以下に記載いたします。 <概要> PDF変換:iTextSharp 5.4.4 2000-2013 1T3XT BVBA (AGPL-version) PDFのバージョン:1.4(Acrobat 5.x)
<セキュリティ> <文書のセキュリティ> 文書セキュリティ:セキュリティ方法 パスワードによるセキュリティ 互換性があるバージョン: Acrobat5.0およびそれ以降
<文書に関する制限の概要> 印刷:許可 文書アセンブリ:許可しない 内容のコピー:許可 アクセシビリティのための内容の抽出:許可 ページの抽出:許可しない 注釈:許可しない フォームフィールドの入力:許可しない 署名:許可しない テンプレートページの作成:許可しない
他に必要な情報があればご指摘いただければ共有いたします。
よろしくお願いいたします。
|