記事No | : 2345 |
タイトル | : Re: インデックス化後の全文検索の速度 |
投稿日 | : 2015/07/03(Fri) 09:55:00 |
投稿者 | : hishida |
> Pronceton WordNet 3.1 と Princeton WordNet 3.0 日本語WordNet
> 1.1の統合版(http://wordnetepwing.osdn.jp/) をインデックス化
> したのですが、する前と比べて全文検索の速度が明らかに遅いです
> 。"domesticated"や"addend"といった検索語
> で検索しました。EBWIN 4.1.3.1、PCのスペックは、Windows7 Home
> Premium 64bit sp1 Corei3 2.4GHz *2 メモリ4GB です。
> HONMO
> N, fts.dat, fts.db が入るフォルダを Program Files (x86)フォル
> ダとは別フォルダにしているのですが関係ありますか?
確認しましたが、確かに通常の全文検索よりもかえって遅くなります。
フォルダの場所の問題ではなくて、現在のEBWin4の全文検索の方法が、英語に向いていないのだと思います。
全文検索には形態素解析とN-gramという二種類の方法があってEBWin4はN-gram方式を使っています。日本語の検索ではN-gramのほうが向いていますが、英語のように単語が分けられるものでは逆に遅くなる可能性があります。
全角部分はN-gram、半角部分は単語単位にするなどハイブリッド型にするなどの工夫が必要そうです。
今年後半には全文検索のver2を考えたいと思いますが、当面は英語タイトルでは全文検索インデックスはつけないで運用していただければと思います。