分類語彙表Toolkit ■はじめに 「分類語彙表Toolkit」は『分類語彙表−増補改訂版−』(国立国語研究所編) 付属CD-ROMを JIS X4081(EPWING)化するツールです。変換にはEBStudioを使用します。 同書の付属CD-ROMには本文内容がPDF形式で収録されていますが、複写・印刷が制限されて いるため画面上での閲覧しかできず、極めて使い勝手の悪いものとなっています。 当ツールキットでJIS X4081(EPWING)化することで、表記検索(見出し語および分類番号)、仮名検索 (読み仮名の付加は『茶筌』を使用)、メニュー検索が可能となります。 国立国語研究所資料集14 『分類語彙表 −増補改訂版−』 国立国語研究所 (編集)/出版社: 大日本図書 ; 706p/257x182(cm)/¥4,935(税込)/ISBN:4477016611 http://www.kokken.go.jp/oshirase/shinkan/bunrui.html ■著作権等 ・当ソフトウェアはフリーソフトです。 ・パッケージに含まれる全てのファイルの著作権はhishidaにあります。 ・本ソフトウェアは無保証で現状のまま提供されます。本ソフトウェアの使用または使用 不能から生じるいかなる損害(逸失利益、事業の中断、事業情報の喪失その他の金銭的損 害を含む)に関して、作者は一切責任を負いません。 ・このツールの使用は著作権法第30条(私的使用のための複製)および第47条の2 (プログラ ムの著作物の複製物の所有者による複製等)の範囲内で行ってください。  a.本ソフトウェアによる『分類語彙表』付属CD-ROMの変換は、製品の正当な所有者本人 (購入者)以外許可されません。  b.コンテンツの第三者への貸与、変換前および変換後のデータのネット等を通じての配 布、サーバー・クライアント環境での不特定多数による利用は著作権侵害となりますので、 厳に慎んでいただくようお願いいたします。 ■配布物 Conv.bat 変換バッチファイル pass1.pl perlスクリプト(1) sakuin.txtを整形 pass2.pl perlスクリプト(2) chasenを使用して仮名読みを追加 pass3.pl perlスクリプト(3) 本文HTML化 pass4.pl perlスクリプト(4) 目次作成 pass5.pl perlスクリプト(5) 序文作成 code.txt 分類項目一覧 menu_skel.txt 目次のスケルトン(中項目一覧) Copyright.txt 著作権ファイル bunrui.ebs EBStudio変換定義ファイル manual.txt このファイル bunrui_db.pl perlスクリプト(番外編)分類語彙表データベース用 conv_db.pl perlスクリプト(番外編)分類語彙表データベースから仮名抽出 ■配布物以外に必要なソフトウェア Acrive Perl フリーウェア http://www.activestate.com/ EBStudio シェアウェア(¥1,050) ※ただしフリーライセンス版で前方一致検索を作成可能です。 http://www31.ocn.ne.jp/~h_ishida/ xdoc2txt ver1.16以降 フリーウェア ※要 cryptlib.dll。同時にダウンロードできます。 http://www31.ocn.ne.jp/~h_ishida/ 『茶筌』 フリーウェア http://chasen.aist-nara.ac.jp/hiki/ChaSen/ ※茶筌をインストールしない場合、仮名検索インデックスが生成されません。 ■動作環境 対応OS : Windows95 / 98 / Me / 2000 / XP ■使用方法 (1)配布パッケージを任意のディレクトリに解凍します。 (2)必要なソフトウェアをインストールします。 ・Active perl ・EBStudio ・xdoc2txt(cryptlib.dllも必須) ・『茶筌』  ※xdoc2txtは環境変数PATHに登録されたディレクトリに入れて下さい。   設定方法が分からない場合は、「分類語彙表Toolkit」を解凍したディレクトリに   xdoc2txt.exe, zlib.dll cryptlib.dll を入れて下さい。 (3)Conv.batのパスをエディタで修正します。 set CHASEN=C:\Program Files\ChaSen\chasen.exe 茶筌の実行モジュール set DATA=D: ←『分類語彙表−増補改訂版−』データが存在するパス ※ハードディスクにコピーしている場合はそのパスを指定 ※ 末尾に \ はつけない (4)コマンドプロンプトから Conv.bat を実行します。  次のファイルが作成されます。 header.html 序文 menu.html 分類項目一覧 bunrui.html 分類語彙表 (5)EBStudioで bunrui.ebs を読み込み、JIS X4081書籍に変換します。  ※入力と出力パスの設定が必要です!  a.[ファイル(F)]→[開く(O)]でbunrui.ebsを開きます。  b.出力先(O)を指定します。  c.基準ディレクトリ(I)の選択を実行し、解凍ディレクトリを指定します。  d.[ファイル(F)]→[実行(G)]で変換します。 (6)DDWin,Jamming等のEPWING検索ソフトウェアで検索します。 ■変換時のログ(EBStudio) 開始時刻:2004/05/07 22:18:13 [分類語彙表] 著作権情報…done 本文… (1)D:\bunrui\header.html (2)D:\bunrui\menu.html (3)D:\bunrui\bunrui.html done 図版総数=(0)個 音声総数=(0)個 メニュー…(120) 前方一致表記インデックス…(100987)個 後方一致表記インデックス…(100987)個 前方一致仮名インデックス…(96907)個 後方一致仮名インデックス…(96907)個 アンカー総数…(1118)個 リンク総数…(990)個 D:\bunrui\bunrui\DATA\HONMON ( 29323264 bytes ) 終了時刻:2004/05/07 22:19:09 ------------------------- カタログを作成しました。 処理を完了しました。 ■中間ファイルの形式 ・処理の過程で、次の中間ファイルを作成します。 ◎pass1.pl の出力 index_data.txt 見出し分類番号-段落番号 ------------------------------------------- 合いの手 1.3132-05 合いの手 1.3230-04 合いの手を入れる 2.3132-05 愛のむち 1.3612-02 ------------------------------------------- ◎pass2.pl の出力(『茶筌』を使用した場合) index_kana.txt 分類番号-段落番号小段落番号-語番号見出し読み ------------------------------------------- 1.3132-05 01-01 合いの手 アイノテ 1.3230-04 01-01 合いの手 アイノテ 2.3132-05 01-01 合いの手を入れる アイノテヲイレル 1.3612-02 01-01 愛のむち アイノムチ ------------------------------------------- ■注意事項 ・[]内の文字列はインデックスから除外します。 ・『茶筌』で付加する読み仮名は、適切でない場合があります。 ■検索方法について  JIS X4081版『分類語彙表−増補改訂版−』では、次の方法で検索が可能です。  (1)表記語による前方一致検索(後方一致検索) 例: 検索語 検索結果 ------------------------------------- 慈悲 慈悲 1.3020-11 好悪・愛憎 慈悲深い 3.3020-13 好悪・愛憎 慈悲深さ 1.3020-11 好悪・愛憎  (2)分類番号による前方一致検索(後方一致検索) 例: 検索語 検索結果 ------------------------------------- 1.13 1.13 様相 (以下1.13で始まる項目) 1.1341 1.1341 弛緩・粗密・繁簡 1511 1.1511 動揺・回転 (体の類) 2.1511 動揺・回転 (用の類) 3.1511 動揺・回転 (相の類)  (3)読み仮名による前方一致検索(後方一致検索) ※『茶筌』の導入が必要です。  (4)分類項目番号によるメニュー検索 ■「分類語彙表増補改訂版」データベースについて 『分類語彙表−増補改訂版−』の元になったデータが、テキストデータの形式で公開され ています(有償)。 「分類語彙表増補改訂版」データベース使用許諾料 ○一 般 : 31,500円 ○学 生 : 10,500円 ○団体利用:105,000円 《活用事例1》正しい読み仮名情報を取得する 「分類語彙表増補改訂版」データベースをお持ちの場合、pass1.pl、pass2.plの代わりに conv_pl.plを使用することで、正しい読み仮名の仮名検索インデックスを付与できます。 perl conv_db.pl :「分類語彙表増補改訂版」データベースのデータ名 →pass2.plの出力と同じ形式の index_kana.txt が得られます。 その後、conv.batの pass1.pl、pass2.plの行を削除して実行して下さい。 《活用事例2》「分類語彙表増補改訂版」データベースから変換 ・サンプルとして、Conv.batの代わりに使用できるbunrui_db.plを添付しています。 perl bunrui_db.pl :「分類語彙表増補改訂版」データベースのデータ名 :当toolkitを解凍したディレクトリ 《参考》「分類語彙表増補改訂版」データベースのデータ形式 レコードID番号/見出し番号/レコード種別/類/部門/中項目/分類項目 分類番号/段落番号/小段落番号/語番号/見出し/見出し本体/読み/逆読み 023700,22537,A,体,主体,機関,同盟・団体,1.2760,03,01,04,独立行政法人,独立行政法人,どくりつぎょうせいほうじん,んじうほいせうょぎつりくど 001946,01838,A,体,関係,存在,成立,1.1220,14,01,03,国立,国立,こくりつ,つりくこ 030548,29140,A,体,活動,言語,言語,1.3101,03,01,01,国語,国語,こくご,ごくこ 022620,21486,A,体,主体,社会,社寺・学校,1.2630,15,01,01,研究所,研究所,けんきゅうじょ,ょじうゅきんけ ■開発ノート ・旧版の「分類語彙表」は本格的な日本語シソーラスの草分けだそうで、『知的生産の技  術』(梅棹忠夫著、岩波新書1969)にも名前が登場する。今回の増補改訂版は、現代語に  対応すべく語彙数を大幅に増補、しかもCD-ROM付。  ところがこのCD-ROMがPDF形式で、複写も印刷も禁じられており、全く役に立たない。  その後、EBシリーズサポート掲示板にてmarudai様がテキスト化の方法をご教示下  さったので(2004/4/24)、JIS X4081(EPWING)化を試みることにした。 ・最初のバージョン(0.10)では、次の手順でPDFからのテキスト化を行った:  (1)iTextFrontでセキュリティ解除の後、保存。  (2)AcrobatReader6.0で読み込み、ファイル(F)→テキストとして保存(V)  ほぼ良好だが、iTextFrontで読み込み後、2ページ目が白抜けする問題があり、OCRで  補完する必要があった。そのため拙作のxdoc2txtを改良して対応した。 ・PDFのセキュリティの解除について著作権の問題を心配をされる方がいると思うが、  PDFリファレンス(p.60)には次の記述がある。 「暗号化辞書で指定された文書アクセス権限をPDFが強制することはできません。ファイル に記述されたパスワードと許可に従って暗号化PDFファイルへのアクセスを制限し、文書作 成者の意図を尊重することは、PDFビューアアプリケーションの実装者に任されています。」 PDFリファレンス第2版 ISBN4-894713381 アドビシステムズ(著),ドキュメントシステム(翻訳) ピアソン・エデュケーション  すなわち、本当にアクセス制限をかけたいなら、パスワード無しのPDFを選択してはいけ  ないということ。勿論、著作権法で認められた「私的使用のための複製」の範囲内で使用  する必要があるのは言うまでもない。 ・特に工夫した点は、見出し語の表記検索の他に、分類番号で検索できるようにしたこと。  それから、テキストには読み仮名がないので、形態素解析ソフトウェアを使用して  読み仮名を付加できるようにしたことだ。 ・読み仮名の付加に使用できそうな形態素解析ソフトウェアには、茶筌、KAKASI、  JUMANがある。一通り試験したが、KAKASIは標準辞書の変換精度が悪すぎ、JUMANは  未知語が現れた場合にかなを表示してくれないという問題があり、茶筌を標準とした。  辞書をチューニングすれば違った結果になるかもしれない。  本当に正しい読み仮名を当てるためには、「分類語彙表増補改訂版」データベース  を購入するしかないだろう。 ・肝心の内容だが、色々物足りない気がしている。 (1)サ変動詞が多量に増補されているため、「体の類」と「用の類」で重複が目立つ。  実用的に意味があるのかどうか分からない。  例)分類 1.3063-03    分類する 2.3063-05  ちなみに大修館『日本語大シソーラス』は品詞による分類をしない主義。 (2)体の類、用の類、相の類の順にページが構成されているため、同じ分類番号を持つ  1.3063-03と2.3063-05では遠く離れた頁に載っており、体、用、相の各類を引き直すのは  大変な手間である。この辺は電子辞書化の恩恵が最も受けられるところだ。  書籍は「類-分類項目」の順ではなく「分類項目-類」の順に並べたほうがいい気がする。 (3)小型国語辞典並の収録語数というが、詞藻辞典として使うにはまだ語数が不足している。 (4)同じ段落の中に、同義語だけでなくて反義語が混じっており、方針が徹底していない。 (5)「分類語彙表増補改訂版」データベースが法外に高い。現在絶版のFD版の10倍の価格。 (6)学研Super日本語大辞典のシソーラスや、岩波日本語表現辞典(EPWING版)と引き比べる  と、分類の適切さでは岩波日本語表現辞典に、語彙の多さでは学研Super日本語大辞典に  軍配が上がってしまう。岩波日本語表現辞典はシソーラスの各語から岩波国語辞典第六版  の語義にジャンプできる優れものだ。  また、今日ではインターネットで引けるシソーラスも数種ある。書籍版では大修館  『日本語大シソーラス』等が比較対照になる。  旧版が草分けであった時代はともかく、民間で優秀な類語辞典が多数刊行されている  現在では、刊行の意義があるかどうかは鋭く問われると思う。  ともあれ、ここ数年「類語辞典ブーム」なので、切磋琢磨しながら類語辞典全体の  レベルが上がれば、日本語文化にとって非常に有益であろう。 ■履歴 2004/05/09 Ver1.00 ・分類項目一覧のメニューに中項目一覧を追加 ・序文のメニュー化 ・見出し語が仮名の場合に、一部のかなインデックスに不備があったbug修正 ・著作権表示を追加 2004/05/05 Ver0.90 ・PDFのテキスト化に、xdoc2txt ver1.12を使用するように変更。 ・bunrui.pdfから本文を、sakuin.pdfからインデックスを作るようにしたので、  書籍版の語の順位通りに表示できるようになった。 2004/05/01 Ver0.10 Copyright(C) hishida 2004