記事No | : 460 |
タイトル | : Re: LDOCE5の変換は? |
投稿日 | : 2009/10/16(Fri) 23:53:24 |
投稿者 | : taka |
LDOCE5は、旧版のLDOCE4v2(update版)と同じく辞書データはIDM形式なので、テキスト化は簡単にできますよ。
なお中身のテキストはXMLですが、4v2よりもシンプルになっていました。
私は項目名と説明本文のみを抽出してEPWING化しています。これは簡単にできますが、
全ての要素を取り込んでEPWING化するのはそれなりに手間がかかると思います。
ちなみにLongmanやOxfordの比較的最近(2006年頃から)の辞書はほとんどが同じ形式で
圧縮してあるので、テキスト化(圧縮解除)まではすぐにできます。
(もちろんXMLメタデータは各社まちまちなので、その先は手間がかかりますが)
個人的にはOED2のver4.0(3.1までとは全く異なり、辞書データが圧縮されて大幅にサイズが小さくなっています)
の変換ができると嬉しいですが、かなり難しそうです。
mac,linuxにも対応のためか、プログラム自体がなんとhaXe+Nekoで作成してありました、、、