大手芸能プロダクションのワタナベエンターテインメントは、同社公式Webサイトの検索エンジンに、アクセラテクノロジが提供する検索エンジンのASPサービスを採用した。ワタナベエンターテインメントが公式サイトの売りとして打ち出している芸能人ブログの検索性能を高めることで、ファンとのつながりを強めることが狙いだ。アクセラが1月10日に公表したもので、ワタナベエンターテインメントのサイトで検索機能の稼働が始まったのは2007年末である(ワタナベエンターテインメントのサイト)。
採用したASPサービスは、アクセラの「Accela BizSearch ASP」。このサービスは「N-gram(エヌグラム)」という文字列解析方式をベースにしている。N-gram方式は新語を検索のキーワードとして取り込みやすいという特徴を持つ。このため、特殊な言葉遣いが頻出する新しいテレビ番組の名称や、人気タレントである中川翔子氏の「しょこたん語」といった芸能人がブログなどで使用する特殊な言葉遣いも、登場し次第すぐに検索対象に取り込めるという。
N-gram方式では、決められた長さで文字列を区切り、その文字列を言葉としてコンピュータに認識させる。インデックス(検索結果の抽出に使う索引データ)の容量が肥大化する傾向があるものの、意味をなさない文字列も検索対象に含められるので、専門用語や新語が頻出する分野のテキスト検索に向く。
対照的なアプローチには、形態素解析がある。形態素解析は、あらかじめ用意した辞書を使って、意味を持つ最小の単位に文字列を分解する。辞書にない単語を無視するので、新語などは登場する度に辞書に追加する必要がある(検索技術についての解説記事)。
■変更履歴 本文中で中川翔子氏の氏名を間違っていました。お詫びして訂正します。本文は修正済みです。 [2008/01/11 11:20] |