chasenを用いた索引語ファイルの自動生成

EBStudioの配布パッケージには、奈良先端科学技術大学院大学の日本語形態素解析ツールchasenを用いて、入力ファイルから 索引語ファイル を生成するperlスクリプト xkeyword.pl が同梱されています。

xkeyword.plを実行するには、chansen2.0とjperlを入手し、インストールする必要があります。

ソフトウェア 入手先
xkeyword.pl パッケージに付属
chasen 奈良先端科学技術大学院大学 茶筌ホームページ
(http://chasen.aist-nara.ac.jp/)
jperl http://www.vector.co.jp/soft/win95/util/se098198.html (Perl5 for Win32)
http://www.vector.co.jp/soft/win95/util/se043908.html (JPerl for Win32)

実行方法:

chasen 入力ファイル | jperl xkeyword.pl > keyword.txt

なおchasenの辞書に登録されていない単語は拾えないので、chasenの辞書に追加するか(Windows上では無理でUNIX環境が必要)、あるいは手作業で索引語を追加する必要があります。

実行例:「青空文庫」の『坊ちゃん』から2400個の索引語を抽出

chasen bottyan_ruby.txt | jperl xkeyword.pl > keyword.txt

	信用	シンヨウ
	合点	ガテン
	提灯	チョウチン
	具合	グアイ
	金魚	キンギョ
	俳句	ハイク
	丸木	マルキ
	竹輪	チクワ
	回向	エコウ
	…