タイトル | : Re: xdoc2txtにて表示上はない余計なテキストが表示される件 |
記事No | : 874 |
投稿日 | : 2016/05/09(Mon) 22:38:13 |
投稿者 | : hishida |
> 御世話になります。 > > xdoc2txtを使っていたところ、例えばですが、 > 以下のPDFにてAcrobatの表示上は表示されないテキストが > 表示されております。 > > http://www2.tse.or.jp/disc/94490/140120160303427200.pdf > > 具体的には、 > このPDFの5枚目「第1号議案定款一部変更の件」とあるページの > テキストでして、xdoc2txt使って見ると > ページ末尾のテキストに目次のようなものが表示されます。 > (Acrobatで5枚目をみるとそのような文字列はありません。) > > KWIC等を使って検索するにも余計なテキストがヒットしてしまい、 > どうにかならないか、もしくは好奇心として何故なのか、 > ご教示頂きたく投稿させていただきました。 > > > 宜しく御願い申し上げます。
PDFに含まれる文字列要素を全て表示する仕様だからです。 OCRソフトが出力する透明テキストが抽出できることはxdoc2txtの大きなメリットだと思いますけどね。 余計なテキストかどうかは人間の主観なので、 テキスト抽出ソフトにとってはPDFに含まれているテキストは全て有用と考える以外に仕様の決めようはありません。 致命的な問題とは到底思えないので、対応は一切いたしません。
|