話し言葉のような自然な文章を使って、必要な情報を探し出す検索方法のこと。文章に含まれるキーワードを抽出し、それを基にデータベースやインターネット上のドキュメントを検索する。キーワードとなる単語を考えなくても、適切なドキュメントを見つけることができるというメリットがある。

 自然文検索は、キーワード抽出と全文検索、スコアという大きく三つの機能で実現する。

 最初のキーワード抽出機能は、文章に含まれる単語を品詞単位で細かく分割し、品詞を判別しながら特徴的な単語をキーワードとして抜き出す。文章の分割には「形態素解析」と呼ぶ自然言語処理の手法を使うことが多い。

 「2004年のオリンピックの開催地はどこですか」という文章で考えてみる。形態素解析では、この文章を「2004年/の/オリンピック/の/開催地/は/どこ/です/か」のように分割する。続いて、助詞や接続詞を除いた後に残った主な単語「2004年」と「オリンピック」、「開催地」をキーワードとして抽出する。

 二つ目の全文検索機能は、データベースやインターネット上にあるドキュメントの全文と、キーワード抽出機能で抜き出した複数のキーワードを照らし合わせて、少なくとも一つのキーワードが出現するドキュメントを見つける。先の例でいえば、「2004年」と「オリンピック」、「開催地」のうち一つでも含まれるドキュメントを探す。

 三つ目のスコア機能では、抽出したキーワードとの関連度合いに応じて、全文検索機能で見つけたドキュメントをランク付けする。キーワードが出現する頻度や、同時に出現するキーワードの数によって、検索したドキュメントとキーワードの関連度合いを数値化する。

 「2004年」だけしか含まないドキュメントより、「オリンピック」と「開催地」も使われているドキュメントのほうがキーワードとの関連度合いが高く、ランキングは上位になる。ランキング上位のドキュメントを読むと、「2004年のオリンピックの開催地はどこですか」という問いに対して「ギリシャ」や「アテネ」という答えが得られる。

 自然文検索の典型的な応用例は、ナレッジ・マネジメントである。業務ノウハウの共有を促進する目的でナレッジ・マネジメントを実践するとき、自然文検索が可能なシステムを導入する企業が多い。

 例えばゼネコン大手の大林組は、2004年4月に稼働させたナレッジ・マネジメント向けのシステムに、自然文検索の機能を盛り込んだ。「外壁からタイルがはがれ落ちてしまう」といった自然文を入力すると、タイルのはく落を防止する技術や施工方法のドキュメントを検索できる。

 ナレッジ・マネジメント向けのソフトには自然文検索の機能を備える製品が多い。代表的な製品としてジャストシステムの「ConceptBase Search1000」がある。

(栗原)