企業内ポータル・サイト構築用のサーバー製品である「SharePoint Portal Server 2001」の発売を第2四半期内に控え,同製品の開発関係者の1人であるMicrosoft ResearchのStephen Robertson教授が3月に来日した。

 新製品は,複数のサーバーに分散して存在する文書を検索して結果をランキング表示することができる。同氏はそのコア技術を披露する記者会見を行った。要旨は以下の通り。

 MS Researchは,Microsoftの研究部門で基本的に研究内容を論文などで出版することなどが業務として求められている。製品開発は専門の開発グループが別に行うのが普通だが,ときどきMS Researchと製品開発グループが連携作業することで成果を出す。SharePoint Portal Serverに関しては,MS Researchの米Redmondにいる部隊が,文書を自動的に分類する技術の開発に関与している。また,英Cambridgeにいる私は,製品開発グループから検索アルゴリズムについて相談を受けたため,製品開発グループとの作業で「Okapi」というテキスト検索アルゴリズムを同製品に取り入れることになった。

 Okapiは,私がロンドンのシティ大学にいたとき設立した情報科学部の研究センターで開発された。文書の内容を特徴付ける言葉の出現頻度に基づいて,文書の重み付けなどにより実現している。言葉の重み付けは統計システムで自動的に行う。重み付けも単純に頻度が高いものを比例的に重くするだけではうまくいかない。よい結果が出るような公式を研究してそれを当てはめている。この分野の専門家の会議のコンテストでも好成績をあげた。

 日本語文書に対してOkapiを適用したときの成績データはまだないが,中国語に対して適用したときにはかなりよい成果を出した。英語のように文が空白で区切られていないので,文中の単語をどう切るかに結果が影響することが分かっている。
(干場 一彦=日経Windows2000)