PR

日本語の辞書データベースが足りない

 スタートアップ企業であるオルツがチャットボット技術を開発するに当たり、独自に辞書データベースの開発に踏み出したのは、ある意味で象徴的な話である。

 冒頭に紹介したように、日本語チャットボットを作成する上で大きな障害の一つに、単語の意味や単語間の関係性を示す「概念辞書」のような辞書データベースが不足している点がある。

 英語における代表的な概念辞書といえば、米プリンストン大学が中心になり開発した「WordNet」だろう。「『鯨』は『ほ乳類』の下位概念」といった形で、単語の意味を階層構造で位置づけている。例えば英語版のWatsonは、このWordNetに加え、Wikipediaなどの記述から自動生成した概念辞書を組み込んでいるとされる。

 一方、日本語における代表的な概念辞書といえば、NTTグループが作成する「日本語語彙大系」や、1980年代の「第五世代コンピュータプロジェクト」の成果を元に官民の出資で制作された「EDR電子化辞書」がある。

 だが、前者は研究用途のほかはNTTグループ以外に使えない上、いずれも「語彙数が少ない、新しい語彙に対応していない点で、商用サービス向けには実用的と言いにくい」(自然言語処理の研究者)。

 それでも、チャットボットに使えるオープンデータとしての辞書は、少しずつだが整備されている。一例として、WordNetを日本の単語にマッピングしたWordNet日本語版や、Wikipediaのデータを機械可読の形に変換したDBpedia日本語版がある。

 これに加え、概念辞書では捉えきれない「コモンセンス(常識)知識」を収集・公開する試みとして、MIT Media Labが1999年から始めたAI開発プロジェクト「Open Mind Common Sense(OMCS)」があり、データ量は少ないながら日本語版も公開されている。

 この日本語版データベースの整備に、2010年から日本ユニシスと電通が関わっている。ゲームを通じてコモンセンス知識を収集するWebサイト「ナージャとなぞなぞ」やFacebookアプリ「日本人検定」などを公開している。

 例えば日本人としての常識度を測る日本人検定ゲームでは、「幽霊は【  】にいる」という文で、【】に最も当てはまる単語を書いてもらう。このゲームを通じ、日本人の常識として「幽霊と最もリンクする場所はどこか」という情報を収集している(ちなみに、最も多かった回答は「墓」だ)。

 こうした辞書データベースさえあれば、自然文の意図を捉えやすくなり、自然な会話ができる――というほど、チャットボットは生やさしい分野ではない。ただ、日本語の概念辞書やデータベースの不備が、日本語チャットボット開発のハードルを高める障壁の一つとなっているのは間違いないだろう。