PR

 松下電器産業は99年7月22日,辞書を利用することなく高精度に全文検索できる技術「字面解析型単語分割方式」を開発した。辞書の代わりに,検索対象となる文書から単語を自動抽出して作成した単語リストを使って単語を分割するのが特徴。松下電器産業は,大規模システム向けの検索ミドルウエア「PanaSerch」の次期バージョンで新技術を採用する方針で,2000年度の製品化を目指す。

従来の全文検索では,必要な情報を確実に検索できない

 現状の全文検索の方法として,(1)文書中の文字列と検索文字列を単純にマッチングする方法,(2)辞書に登録した単語を参照しながら単語分割し,検索する方法---の2種類がある。しかし,いずれの方法にも,検索精度を低下させる欠点がある。

 単純にマッチングする方法では,不要な情報(検索ノイズ)を表示してしまうとういう欠点がある。例えば,京都に関連する情報を収集したい利用者が,「京都」を検索文字列に指定した場合,検索結果では「京都」のほか「東京都」などを含んだ情報も表示してしまう。

 辞書を使う検索方法は,検索ノイズを排除できる一方で,辞書に未登録の単語では検索できないという欠点がある。例えば,映画のタイトルである「失楽園」を検索文字列に指定した場合,古い辞書では「失楽園」を登録していない可能性がある。こうした問題に対応するためにも,辞書の整備コストが必要になってくる。

新しい全文検索は95%の適合率

 字面解析型単語分割方式は,これら2つの検索方法の問題点を解決する。同方式は,(1)単語リストを作成する単語抽出処理,(2)単語リストをもとに検索対象文字列を単語に分割する単語分割処理---と2つの処理に分かれる。単語抽出処理は,辞書を不要にする。このため,辞書検索のような整備コストが発生しない。一方で,辞書検索と同様に単語を分割処理する。これにより,単純なマッチング検索のような検索ノイズが抑えられる。検索文字列に対する検索結果の適合率は,単純なマッチング検索の45%に対し,新技術では95%に達するという。従来までと同じ検索速度で,より高精度な検索が可能になった。

 新技術で検索精度を上げるためには,正確な単語リストの作成が重要になる。そのため,松下電器産業は,単語抽出処理に「字面n-gram方式」,単語分割処理では「分割多重推測方式」という方法を開発/採用した。

 字面n-gram方式は,まず,隣り合う2~3文字の漢字を抽出して単語リストの候補とする。次に,候補となった漢字の前後各2文字のパターンを参照して,候補の漢字が単語に当たるかどうかを判別する仕組みだ。パターンは異なるものの,地名や形容詞も候補の前後2文字から判別するという。

 分割多重推測方式は,単語リストだけで分割できない単語に対し,あらかじめ登録した数値表現,助詞,文字種の変わり目,文字種の出現パターンをもとに,単語の分割位置を推察する。(加藤 慶信=ニュースセンター)