ゲノム情報の解析などを手がけるセレスター・レキシコ・サイエンシズ(CLS、http://www.cl-sciences.co.jp/)は、今年4月に稼働させた遺伝子関連論文を対象とするテキスト・マイニング・システムの活用を本格化する。システム稼働後に利用者から寄せられた意見を基に、来年に予定している機能追加の内容を検討中だ。

 同社が利用しているテキスト・マイニング・システムの対象は、米国の政府機関が運営している生物関連論文のデータベース「MedLine」。CLSはMedLineのデータを買い取って自社内のサーバーに搭載し、日本IBMのテキスト・マイニング・ソフト「TAKMI」を使ってシステムを構築した。

 論文数は約1100万件で、データ・サイズは30GBに上る。これほど大量のデータを対象にしたテキスト・マイニング・システムの活用事例は少ない。「MedLineのデータをTAKMIに読み込ませるだけで2週間かかった」(CLS幕張R&Dセンターの新田清シニアサイエンティスト)という。

 システムを利用する研究者は、あらかじめ用意された「著者別」や「研究機関別」といった切り口を選択し、キーワードを指定して、該当する論文を検索・閲覧できる。指定したキーワードとともに、どんな単語が含まれているかといった「同時出現頻度」などを分析し、論文の傾向を把握することも可能だ。

 現在は「検索の精度をさらに高めるために、分析の切り口の変更などを計画している。切り口を変更するには最低でも2週間かかるので、利用者の意見を聞きながら慎重に検討を進めている」(新田氏)という。さらに、「指定したキーワードを含む論文だけでなく、同義語や略語を含む論文を検索しやすくする。また、対象のデータベースを拡張し、特許情報なども分析できるようにしたい」としている。

島田 優子=日経コンピュータ