タイトル | : 字通テキスト化について |
記事No | : 55 |
投稿日 | : 2008/04/05(Sat) 20:09:55 |
投稿者 | : tree |
平凡社「字通」のテキスト抽出を試みています。 UWSC(フリーソフト)を使って、コピー&ペーストで行う予定です。 字通の親字数は約9000字あるようです。 独自のフォントを持っていて、普通は外字や画像扱いになりそうな甲骨文字等をすべてフォントとして持っているようです。すごいなあと感心しています。
本題です。 特殊な字体はあきらめて一般のフォントで9000字を抽出しようと考えています。 文字コードの扱いを知らないと抽出できないようです。 つまり、単純にエディタに貼り付けると特殊な文字は■になっています。 ワープロに貼り付けてhtmlとしてならばもとの文字として見ることのできます。textで保存すると特殊な文字が別の文字になっています。 unicodeの扱い方を知る必要がありそうだと考えています。
質問です。 コピー&ペーストを行った後でunicode形式のテキストファイルで保存する方法を教えていただけないでしょうか。 またはとんちんかんなことを考えているかもしれません。それならば、考え方をただしていただけませんか。
|