[リストへもどる]
一括表示
タイトルxdoc2txtの文字化け
記事No808
投稿日: 2015/06/19(Fri) 20:45:01
投稿者ArtBox
お世話になります。

xdoc2txtを使用させて頂いている中で、
以下のファイルに使用すると取り出した文字列が文字化けしました。
念のため御報告させて頂きます。

現状で文字化けしない方法があれば御教示頂ければ幸いです。

----------------------
http://www2.tse.or.jp/disc/75380/140120150528494190.pdf
http://www2.tse.or.jp/disc/77260/140120150615417747.pdf
http://www2.tse.or.jp/disc/97350/140120150601499833.pdf
http://www2.tse.or.jp/disc/19390/140120150605406554.pdf
http://www2.tse.or.jp/disc/60960/140120150611414598.pdf

タイトルRe: xdoc2txtの文字化け
記事No809
投稿日: 2015/06/20(Sat) 11:07:46
投稿者hishida
> お世話になります。
>
> xdoc2txtを使用させて頂いている中で、
> 以下のファイルに使用すると取り出した文字列が文字化けしました。
> 念のため御報告させて頂きます。
>
> 現状で文字化けしない方法があれば御教示頂ければ幸いです。
>
> ----------------------
> http://www2.tse.or.jp/disc/75380/140120150528494190.pdf
> http://www2.tse.or.jp/disc/77260/140120150615417747.pdf
> http://www2.tse.or.jp/disc/97350/140120150601499833.pdf
> http://www2.tse.or.jp/disc/19390/140120150605406554.pdf
> http://www2.tse.or.jp/disc/60960/140120150611414598.pdf

確認しましたが、これはオリジナルのPDFのほうの問題で文字の取得ができません。
Adobe reader でCopyしても文字化けします。
埋め込みフォントが使用されており、かつフォントと文字コードのマッピングがpdfファイルのなかに格納されていないためです。
事実上印刷専用のPDFとなっており、xdoc2txtに限らず、テキストを抽出することは無理だと思われます。

タイトルRe^2: xdoc2txtの文字化け
記事No810
投稿日: 2015/06/20(Sat) 16:04:07
投稿者ArtBox
> > お世話になります。
> >
> > xdoc2txtを使用させて頂いている中で、
> > 以下のファイルに使用すると取り出した文字列が文字化けしました。
> > 念のため御報告させて頂きます。
> >
> > 現状で文字化けしない方法があれば御教示頂ければ幸いです。
> >
> > ----------------------
> > http://www2.tse.or.jp/disc/75380/140120150528494190.pdf
> > http://www2.tse.or.jp/disc/77260/140120150615417747.pdf
> > http://www2.tse.or.jp/disc/97350/140120150601499833.pdf
> > http://www2.tse.or.jp/disc/19390/140120150605406554.pdf
> > http://www2.tse.or.jp/disc/60960/140120150611414598.pdf
>
> 確認しましたが、これはオリジナルのPDFのほうの問題で文字の取得ができません。
> Adobe reader でCopyしても文字化けします。
> 埋め込みフォントが使用されており、かつフォントと文字コードのマッピングがpdfファイルのなかに格納されていないためです。
> 事実上印刷専用のPDFとなっており、xdoc2txtに限らず、テキストを抽出することは無理だと思われます。

ありがとうございます。
OCRで対応してみたいと思います。
お手数をお掛けしました。