EBシリーズサポート掲示板（終了：閲覧のみ可）

EBシリーズサポート掲示板（終了：閲覧のみ可）
このフォームからは投稿できません。

記事No ： 792

タイトル： Re: xdoc2txtのCOM.DLL版での文字化け

投稿日： 2015/04/25(Sat) 17:25:27

投稿者： hishida

> お忙しいところ失礼いたします。
>
> xdoc2txtのCOM.DLL版で、
>
> Set obj = CreateObject("xd2txcom.Xdoc2txt.1")
> fileText = obj.ExtractText("sample.pdf",False)
>
> UTF-8でエンコードされたPDFファイルからテキストを抽出する際に、
> 一部文字化け(正確には一部の文字が"?"に変換されます)してしまいます。
>
> 勿論、コマンドライン版では、"-8"オプションを指定することで、正常なテキストを抽出できます。
> COM.DLL版ではそのオプションが設定できない以上、どうしようもない問題なのでしょうか？

COMから受け渡される文字列はBSTR型で、内部Unicodeのはずです。
表示段階でShiftJISへの変換が起きているのではないでしょうか。

- 関連一覧ツリー （▼ をクリックするとツリー全体を一括表示します）

▼

xdoc2txtのCOM.DLL版での文字化..

スコミール

No.791

Re: xdoc2txtのCOM.DLL版での文.. - hishida 15/04/25-17:25 No.792
- Re^2: xdoc2txtのCOM.DLL版での.. - スコミール 15/04/25-20:30 No.793

name
e-mail
url
subject
comment

記事No	： 792
タイトル	： Re: xdoc2txtのCOM.DLL版での文字化け
投稿日	： 2015/04/25(Sat) 17:25:27
投稿者	： hishida