EBStudioの配布パッケージには、奈良先端科学技術大学院大学の日本語形態素解析ツールchasenを用いて、入力ファイルから 索引語ファイル を生成するperlスクリプト xkeyword.pl が同梱されています。
xkeyword.plを実行するには、chansen2.0とjperlを入手し、インストールする必要があります。
ソフトウェア | 入手先 |
xkeyword.pl | パッケージに付属 |
chasen | 奈良先端科学技術大学院大学 茶筌ホームページ
(http://chasen.aist-nara.ac.jp/) |
jperl | http://www.vector.co.jp/soft/win95/util/se098198.html
(Perl5 for Win32) http://www.vector.co.jp/soft/win95/util/se043908.html (JPerl for Win32) |
実行方法:
chasen 入力ファイル | jperl xkeyword.pl > keyword.txt
なおchasenの辞書に登録されていない単語は拾えないので、chasenの辞書に追加するか(Windows上では無理でUNIX環境が必要)、あるいは手作業で索引語を追加する必要があります。
実行例:「青空文庫」の『坊ちゃん』から2400個の索引語を抽出
chasen bottyan_ruby.txt | jperl xkeyword.pl > keyword.txt 信用 シンヨウ 合点 ガテン 提灯 チョウチン 具合 グアイ 金魚 キンギョ 俳句 ハイク 丸木 マルキ 竹輪 チクワ 回向 エコウ …