EBシリーズサポート掲示板（終了：閲覧のみ可）

EBシリーズサポート掲示板（終了：閲覧のみ可）
このフォームからは投稿できません。

記事No ： 793

タイトル： Re^2: xdoc2txtのCOM.DLL版での文字化け

投稿日： 2015/04/25(Sat) 20:30:18

投稿者： スコミール

VBScriptで、
xdoc2txt.exeコマンドライン版でUTF-8で抽出したテキストを、
バイナリで読み込んで
ADODB.Streamを使って、変換しても同様の文字化けが起こりました。

その文字化けをする文字が、"年月日"の"日"の文字なのですが、
文字化けする箇所としない箇所があり、よく調べてみると、

文字化けする"日"の文字コードは、U+2F47、バイナリだと"e2 bd 87"(http://www.charbase.com/2f47-unicode-kangxi-radical-sun)
が使われており、
文字化けしない"日"の文字コードは、U+65E5、バイナリだと"e6 97 a5"(http://www.charbase.com/65e5-unicode-cjk-unified-ideograph)
が使われていました。

大抵は日本語のPDFは後者を使用しているようなので、文字化けしないのですが、
希に、中国語？の"日"を使っている方は文字化けしてしまっておりました。

どうもVB(Unicode)では、扱えないのか、文字化けするようです。

この場合だと、読み込み前のバイナリの段階で"e2 bd 87"→"e6 97 a5"に
置換すると直りました。

こういった対処法しかないでしょうか？

- 関連一覧ツリー （▼ をクリックするとツリー全体を一括表示します）

▼

xdoc2txtのCOM.DLL版での文字化..

スコミール

No.791

Re: xdoc2txtのCOM.DLL版での文.. - hishida 15/04/25-17:25 No.792
- Re^2: xdoc2txtのCOM.DLL版での.. - スコミール 15/04/25-20:30 No.793

name
e-mail
url
subject
comment

記事No	： 793
タイトル	： Re^2: xdoc2txtのCOM.DLL版での文字化け
投稿日	： 2015/04/25(Sat) 20:30:18
投稿者	：スコミール