PR

オルツは200分類の固有表現データベースでAIを鍛える

 「1人1台の人工知能となる『パーソナルAI』を開発する道のりは長く、一朝一夕にはできない。そこで、完成した部品を切り出し、開発者に使ってもらおうと考えた」(オルツ CTOの米倉豪志氏)。

 AI開発スタートアップ企業のオルツは2016年5月、開発者がチャットボットの開発に使えるAPIや開発環境を、6月中旬以降に一部公開することを明らかにした。

 このうち、チャットボットの中核となるAPIが「RMR (Rewritable Memory based Retrieval:更新可能な記憶に基づく検索)」だ。ユーザーによる質問の意図を解析し、回答の候補を5つまで提示できる。2016年6月中旬から、200人限定で公開するという。

 オルツが公開するRMRは、2種類のAPIからなる。一つは、質問に対して一問一答形式で回答を返すAPIである。米IBMのWatsonにおける「Natural Language Classifier(NLC)」と同様の機能だ。米倉氏は「ライターが作成したテスト用の質問を入力したところ、回答候補のトップが正解だった割合は97%だった」と主張する。

 もう一つは、前後の文脈を読み取り、継続的な会話を行えるAPIだ。ユーザーからの質問に答えるだけでなく、チャットボットが自発的に質問することもできる。

RMRの継続会話APIを使った会話の一例
RMRの継続会話APIを使った会話の一例
[画像のクリックで拡大表示]

 オルツは意図解釈の精度をさらに高めるため、会話のトピックを予測し、そこから精度を高める機能「多階層トピック抽出」も開発している。「例えば『アリアハン周辺でスライムに会ったんだ』という会話から、そのトピックが『ドラゴンクエストⅢ』であると解釈できる」(米倉氏)。会話のトピックが分かれば、例えばカンダタという単語は「蜘蛛の糸」の主人公ではなく、ドラクエⅢに登場する覆面の盗賊キャラだと解釈できるわけだ。

 さらにオルツが力を入れるのが、人名や地名、組織名といった固有表現を理解する独自の「辞書」の整備だ。オルツの技術顧問であるニューヨーク大学の関根聡氏と連携し、固有表現のデータベースを作成している。

 オルツがデータベースの作成を始めた当初は、一般的に使われている7種類の固有表現分類(組織名、人名、地名、日付表現、時間表現、金額表現、割合表現)を使っていた。

 だが、この粗い分類では、意図解釈の精度を高めるには不十分だと判断、関根氏の助言のもと、200分類に増やしたという。例えば、人名は「歌手名、政治家、学者」、地名は「河川名、都市名、都道府県名」とより細かく分類する。「人物名にひもづく役職名から人物同士の関係性を推測し、意図解釈の精度を高める、といった使い方もできる」(米倉氏)という。