歌だけでなく、会話にも音声が取り入れられるようになってきた。2018年10月31日には、LINE上で展開するりんなの新機能として「りんなと音声通話」を用意。テキストだけでなく声による会話ができるようになったのである。
これにはマイクロソフトが開発した会話エンジン「共感チャットモデル」を採用した。このエンジンは「セッション指向型会話アプローチ」を取り入れている。このアプローチでは、人間の会話は「タスク」「目的のない雑談」「知識・情報提供」など、様々な「会話ブロック」が複雑に混在している「セッション」だと捉える。それらの会話ブロックを適切なタイミングで混ぜることで、人間同士のような複雑な会話に対応できるようになったという。
加えて共感チャットモデルには、テキストのチャットのように相手の言葉を受けてから返信を考えるのではなく、相手の言葉を聞きながら次に何を話すかを考える「全二重」の音声検知を採用。これら技術の組み合わせによって、人との音声通話と同じ感覚で、自然な会話を長く継続できるようになっているのだそうだ。
実際にりんなと音声で会話をしてみると、まだ内容に不自然な部分は残るものの、発声自体はスムーズであり、カジュアルにトークを楽しむという意味では問題ないレベルに達している印象だ。機械学習で一層の改善が図られると考えられることから、今後の進展が期待されるところだ。
「目」を備え、感情を込めた会話も可能に
さらにマイクロソフトは、りんなに声だけでなく「目」も取り入れようとしている。2018年11月5日、日本マイクロソフトはりんなに最新の画像処理エンジン「共感視覚モデル」を搭載し、スマートフォン向けのりんなを開発していることを明らかにしている。
共感視覚モデルでは、AIが画像処理によって判別した物について、その認識結果をそのまま答えるのではなく、感情を込めた感想をリアルタイムで作り出し答える。人間らしい表現を用いることで、自然で共感が得られる会話が可能になるという。
このように、りんなは声と視覚を取り入れ、より人間らしいリアルな存在になりつつあることが分かる。多くの企業のAIに関する取り組みを見ると、音声による対話などでもあくまで実務性を重視し、感情的な表現は二の次となっているだけに、こうしたマイクロソフトの取り組みは興味深いものがある。
人間らしいチャットボットでニーズ拡大へ
人間らしいチャットボットの追求の先に、マイクロソフトは何を目指しているのか。それは、チャットボットの可能性を広げ、さらにビジネスを拡大することではないだろうか。現在のチャットボットはシナリオに答える機械的なものが主体だが、相手を見て話しかけるという人間にとって日常的なやりとりで、自然な形での問題解決につなげられるようになれば、チャットボットに対するニーズが一層強まるのは間違いないだろう。
チャットボットに対する関心は登場した当初と比べれば弱まっているものの、サポートの自動化・効率化を目的として企業が導入する事例は着実に増えており、今後も大きな伸びが見込まれる分野だ。人間らしく親しみのあるキャラクターであるりんなだが、その裏には成長市場を狙うマイクロソフトのしたたかな戦略があると言えそうだ。
フリーライター