PR

 NTTとNTT-Xは2002年12月3日,更新されたばかりのWebページも検索できるサーチ・エンジン「新鮮情報検索エンジン」の実証実験を開始すると発表した。同日より,NTT-Xのポータル・サイト「goo」で公開を開始した。

 新鮮情報検索エンジンは,これまでgooで実験公開されていた「最速ニュース記事検索実験サービス」の拡張版である。インターネットの検索エンジンが苦手とする,即時性の高い情報の検索をするものだ。インターネットの検索エンジンは,サーバーを巡回してWebページを集め,それを利用して検索用のデータ(インデックス)を生成する。だからインデックスを作った後に更新されたページは検索できない。NTTは,ページ収集の間隔を短くしたり,リアルタイムに更新可能な構造を持つインデックスを採用するなどして,このタイムラグを縮めた。最短で15分の間隔でページを収集し,インデックスを更新するという。従来の実験サービスは検索の対象をニュースに限定していたが,今回の新鮮情報検索エンジンは日本語で書かれたすべてのWebページを対象にする。

 同社の推定によれば,日本語のWebページは8000万ページにのぼる。これを効率的にインデックス化するために,一度収集したページの構造を記憶し,次回の収集に利用する仕組みを新たに導入した。2回目回以降の収集時には,この記憶を元に本文に当たる部分のみを抜き出し,差分を比較する。更新されていなければインデックス作成の対象から除外する。これで不要なインデックス処理を削減し,インデックス処理の速度を従来の5倍に高めることができたという。また,ハフマン符号に基づくインデックス圧縮技術を使った。8000万ページを網羅するインデックスのサイズはおよそ800Gバイトにもなるが,この圧縮方法で200Gバイトに減らせるという。

 この実験サービスの公開期間は,2003年の3月までの4ヶ月間。その後商用化を検討する。gooでの利用や,他のポータル・サイトへの提供などを考えているという。

(八木 玲子=日経バイト)

NTT

NTT-X

最新情報検索実験