タイトル | : xdoc2txtのCOM.DLL版での文字化け |
記事No | : 791 |
投稿日 | : 2015/04/25(Sat) 13:31:39 |
投稿者 | : スコミール |
お忙しいところ失礼いたします。
xdoc2txtのCOM.DLL版で、
Set obj = CreateObject("xd2txcom.Xdoc2txt.1") fileText = obj.ExtractText("sample.pdf",False)
UTF-8でエンコードされたPDFファイルからテキストを抽出する際に、 一部文字化け(正確には一部の文字が"?"に変換されます)してしまいます。
勿論、コマンドライン版では、"-8"オプションを指定することで、正常なテキストを抽出できます。 COM.DLL版ではそのオプションが設定できない以上、どうしようもない問題なのでしょうか?
|