タイトル | : Re: LDOCE5の変換は? |
記事No | : 460 |
投稿日 | : 2009/10/16(Fri) 23:53:24 |
投稿者 | : taka |
LDOCE5は、旧版のLDOCE4v2(update版)と同じく辞書データはIDM形式なので、テキスト化は簡単にできますよ。 なお中身のテキストはXMLですが、4v2よりもシンプルになっていました。
私は項目名と説明本文のみを抽出してEPWING化しています。これは簡単にできますが、 全ての要素を取り込んでEPWING化するのはそれなりに手間がかかると思います。
ちなみにLongmanやOxfordの比較的最近(2006年頃から)の辞書はほとんどが同じ形式で 圧縮してあるので、テキスト化(圧縮解除)まではすぐにできます。 (もちろんXMLメタデータは各社まちまちなので、その先は手間がかかりますが)
個人的にはOED2のver4.0(3.1までとは全く異なり、辞書データが圧縮されて大幅にサイズが小さくなっています) の変換ができると嬉しいですが、かなり難しそうです。 mac,linuxにも対応のためか、プログラム自体がなんとhaXe+Nekoで作成してありました、、、
|