PR
図7  検索ソフトの有用性を図る尺度<BR>検索結果にユーザーの求めるファイルがある割合「適合率」と,全ファイル群の中でユーザーの求めるファイルが検索できた割合「再現率」がある。一般に,両者はトレードオフの関係にある。適合率を上げようとすると,検索を絞り込むため検索漏れが増え再現率は下がる。再現率を上げようと検索結果を増やすと,ユーザーに適合しないファイルが検索結果に含まれる確率が高まる。
図7 検索ソフトの有用性を図る尺度<BR>検索結果にユーザーの求めるファイルがある割合「適合率」と,全ファイル群の中でユーザーの求めるファイルが検索できた割合「再現率」がある。一般に,両者はトレードオフの関係にある。適合率を上げようとすると,検索を絞り込むため検索漏れが増え再現率は下がる。再現率を上げようと検索結果を増やすと,ユーザーに適合しないファイルが検索結果に含まれる確率が高まる。
[画像のクリックで拡大表示]
図8  検索結果一覧中に所望のファイルが存在した率(適合率)&lt;BR&gt;キーワード5件について測定した。
図8 検索結果一覧中に所望のファイルが存在した率(適合率)<BR>キーワード5件について測定した。
[画像のクリックで拡大表示]
図9  検索結果上位20件の適合率&lt;BR&gt;キーワード5件について測定した。
図9 検索結果上位20件の適合率<BR>キーワード5件について測定した。
[画像のクリックで拡大表示]
図10  検索結果の再現率&lt;BR&gt;検索漏れが少ないほど再現率は高い。
図10 検索結果の再現率<BR>検索漏れが少ないほど再現率は高い。
[画像のクリックで拡大表示]

 検索精度を測る指標は,大きく二つある。検索結果にユーザーの求めるファイルがある割合「適合率」と,全ファイル群の中でユーザーの求めるファイルが検索できた割合「再現率」だ(図7[拡大表示])。

 理論的には,ノイズを増やさずに所望のファイルをなるべく多くすれば,適合率と再現率を同時に高められる。ただ万能な検索アルゴリズムがないことから,一般に適合率を上げようとすると,検索を絞り込むため検索漏れが増え再現率は下がる。それとは逆に,再現率を上げようと検索結果を増やすと,ユーザーに適合しないファイルが検索結果に含まれる確率が高まるのが普通だ。

 そこで5件のキーワードについて,適合率と再現率をそれぞれ測定した。「ハードディスクの記録密度」と「CPUのベンチマーク」は,2語のクエリーとして一般的なものを想定して,キーワードに入れた。「海外出張」は海外出張と名付けたフォルダにあるファイルを総ざらいできるかを試すためのキーワードである。「セグメントの定義」の検索結果を見れば,セグメンテーションのような表記揺れへの対応状況が分かるはず。「SMB」は単語の切り出し方によって「SMBus」といった単語含む余計なファイルを除外できるかを見た。

 なお,自然文検索に対応するConceptSearchとQuickSolutionパーソナル体験版はそのまま,他の4製品は助詞を省いてスペースで区切ったうえでキーワードを入力した。

高機能がアダとなる場合も

 適合率は,表示する検索結果が多いほど下がる。逆に検索結果が1件でも,所望のファイルであれば適合率は100%となる。あいまい検索が可能なConceptSearchとQuickSolutionパーソナル体験版は,他の4製品より適合率は低いはずだ。ただ実使用では,ユーザーは関連度や日時によってソートした結果を上位から順に見ていく。そこで検索結果全件を対象とする適合率と,ユーザーが一覧できる件数(上位20件とした)を対象とする適合率を測定した。

 まず,全件を対象とする適合率を見ていこう(図8[拡大表示])。あいまい検索が可能なConceptSearchとQuickSolutionパーソナル体験版の2製品は,総じて適合率が低い。SMBの検索では,形態素解析によって単語を切り出すConceptSearchとGoogleデスクトップ検索が100%の適合率を得た。他の4製品は,SMBusを含むファイルを検索したため,適合率が約10%で横並びとなった。Spotlightは形態素解析を実施するソフトだが,英単語については部分一致を検索できるインデックス構造を採るようだ。

 次に実施した上位20件を対象とするテストでは,三つのキーワードで70%以上の適合率を得た(図9[拡大表示])。CPUのベンチマークとSMBについても,40%以上の適合率となった。完全一致したキーワードについて関連度を高く評価するソートアルゴリズムがあるためだ。

総ざらいなら,あいまい検索が有利

 再現率は,適合率とトレードオフの傾向にある。一般に適合率が高いソフトは,再現率が低くなる。そこで適合率の高いソフトの再現率が本当に低くなるかどうかを,測定で確認した。あらかじめ測定対象ファイル群の内容と測定用キーワードを人手で照らし合わせて,検索されるべきファイル群を調査。検索結果と照合して再現率を算出した。

 再現率で見ると,適合率とは逆にConceptSearchとQuickSolutionパーソナル体験版が100%に近い結果を出している(図10[拡大表示])。特にあいまい検索が可能なConceptSearchは,「ハードディスクの記録密度」に対して,「ハードディスクの高密度化」を含むファイルを抽出。「海外出張」についても,「海外旅行支店」を含むファイルを検索できた。

 一方,同じくあいまい検索に対応するQuickSolutionパーソナル体験版は「海外出張」で25%の再現率にとどまった。これはファイルのパス名をインデックスの対象としないのが原因である。他の5製品は,Spotlightを除いて「海外出張」というフォルダに格納したファイル群を検索できた。Spotlightは海外出張フォルダ自体を検索結果として返したものの,そのフォルダに含まれていたファイル群は検索できなかった。

 再現率が最も低かった組み合わせは,「セグメントの定義」とGoogleデスクトップ検索。再現率が約11%と低い。これは,Googleデスクトップ検索の仕様により,PDFファイルに含まれていた「セグメント」がインデックスの対象から外れたため。Googleデスクトップ検索は,ファイルから抽出したテキストデータの先頭から5000語のみをインデックス化する。重要な情報は先頭にあるという経験則に基づいて,インデックス作成の負荷を軽減している。次に再現率が低かったSpotlightも,検証結果を見る限りでは同様な制限が存在するようだ。キーワードに適合する6件のPDFファイルのうち,検索できたのは2件だった。