知的生産と情報検索

知的生産とコンピュータ

 「知的生産」という言葉の初出は、『知的生産の技術』(梅棹忠夫著、岩波新書1969)だそうです。この本の中では「知的生産」という言葉を「人間の知的活動による情報の生産」という意味で使っており、「知的生産の技術」として、京大型カードやファイリング方法、カナモジタイプライター等が紹介されています。今日読んでも新鮮で、示唆に富む良書ですが、やはり時代を感じる部分はあります。最も大きな変化は、日本語ワープロとパーソナルコンピュータの登場、そしてインターネットの普及でしょう。

 まず日本語ワープロの登場は、非常にエポックな出来事でした。英米では100年前からタイプライターの利用の歴史があります。日本人もワープロの登場で、そのギャップが一気に縮まり、誰でも見やすい原稿を出力できるようになりました。それだけではなく、文字の複写や置換、検索ができるという特質は、文書の作成の効率を飛躍的に増大させました。

 また電子辞書や電子百科事典などの登場で、大量の知的情報を気軽に活用できるようになりました。さらにインターネットの普及により、情報収集の主役が新聞や雑誌・書籍から、オンライン情報に変わりました。このように知的生産の環境は、この10年ぐらいで飛躍的に進歩しました。今日の知的生産の技術としては、コンピュータの活用が欠かせないと言えましょう。『知的生産の技術』の京大型カードも、現在ではパソコンのデータベースやワープロ文書で実践している人が多いのではないでしょうか。

情報整理と検索

 さて知的生産の成果物としては、論文・日記・原稿・レポート・マニュアル等があります。ワープロによる知的生産物が蓄積されてくると、今度は「情報の整理と検索 」が問題になってきます。知的生産のなかには、蓄積した情報の二次加工による価値の創造 があり、「膨大な情報の中からいかに迅速に目的とする情報を探し出すか 」が、知的生産性に大きく影響してきます。

 パソコンによる情報の整理法としては、まず誰でも試みるのは、文書をカテゴリ毎に分類したディレクトリ(Mac風に言えばフォルダ)に整理することです。「知識を階層的に分類する」というアイデアは図書館の書架の管理では日本十進分類表(NDC)などでおなじみのものです。

C:\ My Documents\ 日記 \ 9403.txt
9404.txt
9405.txt
...
原稿 \ 紀行文.doc
日本百名山.doc
...
階層ディレクトリによる分類

階層ディレクトリによる分類は有用なのですが、数百〜数千の大量の文書が蓄積されると、どこに格納したかわからなくなり、結局分類の意味がなくなってしまうことが欠点です。

そこで『「超」整理法』(野口悠紀雄著、中公新書1993)では全てを時系列で管理するという「押出式ファイリング」を提案し、パソコン文書も時系列で管理すれば分類は不要としています。確かにあまり細かな分類をしても、分類作業自体にエネルギーを使う割に後日利用しないので、時間的に無駄といえます。ただ完全時系列で分類なしというのも一つの極論で、実際に実践している人は見たことがありません。時系列管理が向くのは机の上の整理と、スクラップブック等に限られるというのが私の感想です。結局、緩やかな分類と検索ツールの組み合わせが一番現実的だと思います。

 検索ツールとしてはUNIXのgrepが有名であり、DOS環境を始め多くのプラットフォームに移植されています。grepでは正規表現を使ってかなり複雑な文型を検索することができます。しかしgrepはテキストファイルしか検索できないため、WORDやExcelなどのバイナリファイルに対して使用できません。そこで文書は全てエディタで作成し、テキストファイル以外使わないという話もよく聞きます。テキストファイルではsedやAWKなどのツールで加工することも容易なので、お勧めできる方法の一つです。

 ただ個人の文書作成ならそれでいいのですが、仕事の文書等では現実問題としてワープロを使わないわけにいきません。「既に蓄積されたワープロ文書を検索したい」というニーズは確かに存在します。また最近ではWORDや一太郎などワープロソフトがプリインストールされたパソコンも多いので、ワープロで知的生産を始めた方も多いはずです。 なんとかWORD文書やExcelのシートを検索する方法はないのでしょうか。

ワープロ文書の検索

 ワープロ文書(Wordや一太郎など)を検索する方法としては、たとえば次のようなものがありますが、それぞれ一長一短があります。 (注:以下はKWICの開発を始めた2000年当時の状況です。)

  1. 各種オフィス製品に付属の検索ツール
    Microsoft Officeの「高度な検索」(FINDER.EXE)、一太郎の「JSファイル検索ツール」、OASYSの「ファイルからの検索」等、オフィス製品に付属の検索ツールを使う方法です。 問題点は、通常は自社製品しか検索できないこと(「JS検索ツール」はWORD/Excelも検索できるが)、ファイル単位でしか検索結果が表示されず、ファイルの中の一致箇所がわからないなど、使い勝手がよくないことです。
  2. フリーウェア・シェアウェア等のオンラインソフト
    「WORDが検索できる」と宣伝しているオンラインソフトを数種試してみましたが、 OLEを使って内部的にWORDを起動しているために遅かったり、検索もれがあったりなど、調査の範囲では実用になるソフトはありませんでした。
  3. 全文検索システムnamazu(フリーソフト)
    namazuはフリーで構築できる全文検索システムであり、フィルタによってWORD、Excel、一太郎、PDF等の検索にも対応できます(Win32環境では、それぞれの製品がインストールされていればいい)。ただし環境の構築には専門的なスキルが必要なため、一般ユーザが導入するには敷居が高い面があります。また手動でインデックスを更新する必要があるため、 どちらかというと更新頻度が少なく大量の文書がある環境に向いています。
  4. Microsoft Index Service(Windows2000/XP)
    Office文書が検索でき、自動的にインデックスを更新してくれます。IFilterによって他社製の文書フォーマットも対応できます(PDF,一太郎など)。 ただしWindows2000系の機能のため、Windows95/98のユーザは使用できません。
  5. ジャストシステムのConcept Base Search (その後「インターネットブーメラン」に改称後、「Concept Base Search」として再販)
    操作性に優れ、WORD/Excel/一太郎などが検索できます。また要約機能など、ジャストシステムの長年の日本語処理技術の蓄積を活かしたユニークな機能があります。 ただしこの製品には致命的欠陥があります。つまり、"罪と罰"のように助詞を含んだ検索語は、自動的に ( "罪" OR "罰" ) になり、期待と全く違った検索結果になります(せめて "罪" AND "罰" ならまだいいのですが)。パソコン版のConcept Base Searchには辞書登録機能がないため、辞書をチューニングすることもできず、結局使い物になりません(ワークステーション版は辞書をメンテナンスするユーティリティあり)。

またnamazuやMicrosoft Index Service等に共通する問題として、検索結果が「ファイル単位」であり、ファイルの中のどの文脈で一致したかがわからないという欠点があります。HTMLのように文書の最小単位がページなど短い場合はよいのですが、章以上の単位になると検索の有効性が薄れてきます。

理想の検索ツールを目指して

 なかなか理想的な検索ツールがみつからず、身近な検索ニーズを満たすために作成してみたのが本ソフトウェアです。WORD/Excel/一太郎/OASYS等の文書構造を直接解析しているため、高速であり(テキストとほぼ同速!)、これらの製品を持っていなくても検索できます。

 また、大量の文書を保有するヘビーユーザ向けに、全文検索エンジンのフロントエンド機能を提供しています。全文検索エンジンで検索対象となるファイルを高速に絞り込み、 で一致箇所を全て列挙するというハイブリッド検索ができます。

 当ソフトのようにワープロ文書を直接解析する方式の弱点は、バージョンアップでファイル形式が変更された場合に、追従できなくなる恐れがあることです。その意味では、OLEを用いて公開されているインターフェースで文書を取り出す方式は、速度に問題があっても、将来の互換性を考えると安全な方式です。とはいえ、現在ではワープロ各社とも過去の文書資産との下位互換性に気を使っており、これ以上メジャーな文書形式が増える兆しはあまりなさそうに思います。安易に文書形式を変えて互換性をなくすことは、現在ではユーザの抱え込みに役立つよりも、ライバル他社に乗り換えるきっかけにしかなりません。

 本ソフトウェアがあなたの知的生産性の向上に役立つなら、作者としてこれに勝る幸せはありません。

2001/03/13 - 初版
2003/04/09 - 二版