タイトル | : Re^2: xdoc2txtの文字化け |
記事No | : 810 |
投稿日 | : 2015/06/20(Sat) 16:04:07 |
投稿者 | : ArtBox |
> > お世話になります。 > > > > xdoc2txtを使用させて頂いている中で、 > > 以下のファイルに使用すると取り出した文字列が文字化けしました。 > > 念のため御報告させて頂きます。 > > > > 現状で文字化けしない方法があれば御教示頂ければ幸いです。 > > > > ---------------------- > > http://www2.tse.or.jp/disc/75380/140120150528494190.pdf > > http://www2.tse.or.jp/disc/77260/140120150615417747.pdf > > http://www2.tse.or.jp/disc/97350/140120150601499833.pdf > > http://www2.tse.or.jp/disc/19390/140120150605406554.pdf > > http://www2.tse.or.jp/disc/60960/140120150611414598.pdf > > 確認しましたが、これはオリジナルのPDFのほうの問題で文字の取得ができません。 > Adobe reader でCopyしても文字化けします。 > 埋め込みフォントが使用されており、かつフォントと文字コードのマッピングがpdfファイルのなかに格納されていないためです。 > 事実上印刷専用のPDFとなっており、xdoc2txtに限らず、テキストを抽出することは無理だと思われます。
ありがとうございます。 OCRで対応してみたいと思います。 お手数をお掛けしました。
|