PR

文字列を情報としてとらえる

画面1●伝統的な検索ダイアログ・ボックス
多くのアプリケーションで,これと同様のものが用いられている。
画面2●Emacsのインクリメンタル検索
「sch」と最初の3文字を打てば,「scheme」という言葉を検索できる。
画面3●Migemo
「kik」と最初の3文字を打つだけで,「奇怪」という言葉を検索できる。かな漢字変換の必要もない。
画面4●Mac OS X付属のメーラー
検索用のフォームが,常に見える位置に配置されている。
画面5●Googleツールバー
黄色くハイライト表示されるため,キーワードがどこにあるか分かりやすい。
画面6●Googleの要約表示
キーワードが含まれる近辺の文章を要約として表示する。
画面7●リストブラウザ
左のペインに,検索結果が大量に一覧表示されている。

 文字列検索が字面の検索にとどまっているのに対し,そこから意味を抽出しようとするのが情報検索である。テキストを情報としてとらえて,より意味のある検索を行うことを目指している。

 情報検索の分野で古くから盛んに行われている研究は,検索結果を目的の意味に近い順にランキングする手法である。大量の文書から必要な情報を検索する際,単純な文字列検索では,キーワードにヒットする文書が多すぎて検索結果が役に立たないことがある。見つかった文書を意味の近い順に並べることで,人間が検索結果を利用しやすくする。

 ただ,コンピュータは文書を理解して意味を把握できない。コンピュータが分かる形で意味を抽出するには,文書を何らかの形で抽象化し,数値化する必要がある。その手法として最も一般的なのは,文書と質問文をともに単語の集合からなるベクトルとしてとらえるベクトル空間モデルである。ベクトル間の類似度を基に,意味の近さを判断する。ベクトル空間モデルでは,重要な単語に大きな重みを,瑣末な単語に小さな重みを付けるという手法でランキングを決定する。広く使われているtf idf(term frequency,inverted document frequency)という計算法では,たくさんの文書に含まれる一般的な単語は重要ではない,少数の文書に含まれる希少な単語は重要である,という経験的な考え方に基づいて重みを計算する。

 情報検索の手法はこれ以外にもさまざまあるが,基本的にテキストを統計的に扱うという点は共通している。単語のベクトルの中から同じような概念を表現する単語を自動的に一つにまとめて扱い,質問文と文書の単語が正確に一致しなくても検索を行えるようにしたLSI(Latent Semantic Indexing)や,ニューラル・ネットワークを使ったモデル化の手法などである。どれも,人間が文章を理解するようにテキストの意味を解析するのには程遠い段階にある。

テキスト以外の情報を利用する

 より効果的に意味を抽出するために,テキストそのものにはない情報を利用しようとするアプローチもある。例えばWebの検索エンジンでは,HTMLの構造に着目して「<title>... </title>」の中に含まれる単語に重みをつけたり,「<metaname="description" content="ページの説明文">」の内容を重視したりする手法が古くから用いられてきた。

 さらに,文字には表れない情報を利用したのがGoogleである。Googleが注目したのはリンクの情報。Web上のページ間には文字通り蜘蛛の巣(Web)状にリンクが張られている。価値のあるページには,特に多くのリンクが張られる傾向がある。Googleの「PageRank」という手法はこの性質を生かして,リンクをページの推薦と見なす。多くのサイトからリンクされているページは価値が高い,という考え方に基づいてページの重要度を計算する。このとき単にリンクの数だけではなく,重要なページからのリンクほど価値が高い,という価値の伝播を含めて重要度を計算している点がPageRankの優れた点である*1

検索機能のインタフェースは使いにくい

 最後に取り上げるのが,検索インタフェースである。検索の使い勝手を決める重要な要素だ。どんなに検索が速くて精度が良くても,インタフェースが使いにくければ台無しになってしまう。現実の利用場面ではアプリケーション・ソフトとWebの二つが想定できる。

 アプリケーション・ソフトが備える検索機能のインタフェースは,ここ10年間進歩しているように見えない。検索機能自体は,ワープロやブラウザ,メーラーなど多くのソフトが備えている。たいてい,メニューの「編集→検索」で検索用のダイアログ・ボックスを表示させる(画面1[拡大表示])。

 しかしこのダイアログ・ボックスは,表示するだけでも手間がかかる。それ以上に呆れるのは,検索結果がこのダイアログ・ボックスの下に隠れてしまうことだ。一瞬,何も見つからなかったのかと思ってダイアログ・ボックスを閉じると,その下にヒットした言葉が見つかったりする。

 どうしてこんなに不便なのかを考えてみると,「そもそもユーザーは検索などあまりしないのだから検索用のダイアログ・ボックスなど使いにくくてよい」という思いが開発者にあるのではないかと疑ってしまう。使われない機能なら手を抜いたっていい,という考え方だ。しかし,実態は「検索機能が使いにくいからユーザーは検索をしない」の方が近いのではないだろうか。

 この点優れているのが,UNIXで広く使われている「Emacs」というエディタである。Emacs自体は操作体系が複雑怪奇で,決して素直に使いやすいと言えない代物だ。ただ検索機能の使い勝手は良い。「ミニバッファ」と呼ばれる画面の最下部の領域を使って検索したい言葉を入力するため,ダイアログ・ボックスに邪魔されることなく検索できる。

 さらに優れている点は,キーボードを1文字打つたびに検索が進むことだ(画面2[拡大表示])。例えば「sch」と最初の3文字を打つだけで「scheme」という言葉の検索に成功する。このような検索はインクリメンタル検索と呼ばれ,古くから存在している。Macintoshのユーザー・インタフェースの産みの親とされるJeff Raskin氏は,インクリメンタル検索を重視し,インクリメンタル検索専用のキーを備えたワープロ専用機を設計している。氏によれば,インクリメンタル検索は手早く利用できるだけでなく,一つキーを打つごとにユーザーにフィードバックが返るという点においても優れているとのことだ。

 筆者が開発したMigemoというソフトウェアは,日本語でのインクリメンタル検索を可能にしたものである。かな漢字変換という日本語特有の手間を省略し,ローマ字のまま日本語をインクリメンタル検索できる(画面3[拡大表示])。

検索不遇の時代に変化が訪れる

 検索用のダイアログ・ボックスを表示しないことも,インクリメンタル検索にしても,ちょっとした工夫にすぎない。しかしこのことはずいぶん長い間ないがしろにされてきた。

 ここへ来てようやく,検索不遇の時代にも変化が訪れつつある。検索機能は「編集→検索」という不当な扱いから抜け出し,表舞台に姿を現し始めている。その端的な例は,Mac OS Xのメーラーに見て取れる。検索用のフォームを常に見えるところに表示し,インクリメンタル検索にも対応している(画面4[拡大表示])。

 これまでのメーラーは検索機能が奥に隠れていたため,検索はあまり利用されてこなかった。代わりに,件名や差出人順でソートして目的のメールを目視で探す,といったことがごく日常的に行われてきた。検索機能が表に出るだけでこうした面倒な操作をする必要がなくなり,目的のメールをすばやく見つけ出すことができる。

表示手法も優れるGoogle

 Web検索に目を向けても,その使い勝手は十分ではない。キーワードを含む文書を探すという意味では成熟した感もあるが,インタフェースという観点ではまだまだだ。依然としてフォームにキーワードを入力して送信するとサーバから結果が返ってくるだけ,という状況が続いている。

 ただし近年では改善も見られつつある。特にGoogleの工夫が光る。Googleはランキング技術だけでなく,検索結果の表示手法も優れた検索エンジンである。

 まず,検索したキーワードがどこに存在するか分かりやすい。ダイアログ・ボックスを使った検索では,いちいちクリックしないと次の位置を見ることができない。ぱっと一目見るだけでまとまった情報を識別できるという人間の特性がまったく生かされない。

 これに対してGoogleツールバーは,指定した言葉をブラウザ内でハイライト表示できる。こうした工夫はテキスト・ビューアなどで古くからあったが,不思議と広く日の目を見ることはなかった。ハイライトによって検索結果の表示に一覧性がもたらされ、検索の有用性が大幅に向上する(画面5[拡大表示])。

 また,キーワードがサイト内でどのように使われているかを要約として表示している(画面6[拡大表示])。このような表示手法はKWIC(KeyWord InContext)と呼ばれ,Google以前から存在していた。しかし処理のコストが大きいためあまり利用されてこなかった。ページの冒頭部分を要約として表示する手法と比べて,KWIC 式の表示は有益な情報を多く含んでいる。

 ただし,検索エンジンの工夫だけでは限界がある。Googleでも,ヒットしたページがあまりにも多いとその結果を確認しきれない。こうした要求を満たすために,多くの検索結果を効率的に閲覧するのに適したブラウザが考案されている。リストブラウザである(画面7[拡大表示])。

 これ以外にも,Web検索のインタフェースはまだまだ改善の余地がある。今後は,インクリメンタル検索をはじめとする対話的な手法の導入によって,操作感や視覚的な面での使いやすさが改善されることが望まれる。

「記録社会」の功罪

 検索はメールに続いて第2位のオンライン活動であるという調査報告がある。調査の信憑性は定かではないが,多くのユーザーが頻繁に検索しているという実感はある。試しにGoogleで「検索」「メール」「インターネット」を検索してみると,インターネットは約9420万件,検索は約9410万件,メールは約8500万件という順にヒット件数が並んだ。

 意外だったのは,「検索」が「メール」より上だったことだ。しかしよく考えてみると,このコラムを書くためにも最低でも3回は検索をしている。検索がメールより上位に来るのも実感としてうなずける。もはや検索することなくインターネットを利用する生活は考えられなくなっている。

 このように検索が日常生活に定着するにつれて,インターネットにおけるプライバシの考え方が変わってきている。筆者の友人は就職の面接の際に,面接官が自分のことを知りすぎているのでいぶかっていたところ,「あなたのページを検索して読ませていただいたんだけど」と言われて初めて納得したそうだ。この友人の場合はまっとうな内容のページを作っていたため就職にプラスに働いたようだが,趣味的な内容の場合はマイナスとなる恐れもある。実名を出す以上はいつどこで誰に読まれるか分からないことを意識してページを作らないといけないようだ。

 一方,自治体や企業のWebサイトでは,担当者のミスで個人情報を含んだ名簿をうっかり載せてしまうという事故が絶えない。「削除したのでご安心ください」と発表した途端にGoogleにキャッシュが残っていることが判明して余計に被害が広まってしまったという事件もあった。

 Googleのキャッシュなら,元のサイトが消えてしばらくすれば見えなくなる。だが,インターネット上の情報のアーカイブを作成している非営利団体「archive.org」のアーカイブは,元のサイトが消滅してもページ内容を保存し続ける。このためさらに厄介である。知人はうっかりWebに載せてしまったサークルの名簿を削除してもらうようarchive.orgに依頼したが,1カ月経っても反応がないそうだ。

 インターネットに一度載せてしまった情報は,すぐに記録され,簡単に検索でき,消すことは困難,という性質を持っている。インターネットに何かを載せるときはこのことをよく考える必要がある。記録と検索の技術は今後ますます発展して社会に浸透していくと思われる。筆者は,このような社会を勝手に「記録社会」と呼んでいる。利便性の代償として支払っているものは意外と大きいのかもしれない。


高林 哲 Satoru Takabayashi

産業技術総合研究所研究員
1997年に全文検索システム「Namazu」を開発。以来,多数のフリー・ソフトウェアを開発している。研究員という肩書きの割には,「論文の数 << 雑誌記事の数 ≒ フリー・ソフトウェアの数」という状況が続いている。http://namazu.org/~satoru/