記事No | : 792 |
タイトル | : Re: xdoc2txtのCOM.DLL版での文字化け |
投稿日 | : 2015/04/25(Sat) 17:25:27 |
投稿者 | : hishida |
> お忙しいところ失礼いたします。
>
> xdoc2txtのCOM.DLL版で、
>
> Set obj = CreateObject("xd2txcom.Xdoc2txt.1")
> fileText = obj.ExtractText("sample.pdf",False)
>
> UTF-8でエンコードされたPDFファイルからテキストを抽出する際に、
> 一部文字化け(正確には一部の文字が"?"に変換されます)してしまいます。
>
> 勿論、コマンドライン版では、"-8"オプションを指定することで、正常なテキストを抽出できます。
> COM.DLL版ではそのオプションが設定できない以上、どうしようもない問題なのでしょうか?
COMから受け渡される文字列はBSTR型で、内部Unicodeのはずです。
表示段階でShiftJISへの変換が起きているのではないでしょうか。