自然言語処理(NLP)の領域で、ディープラーニング(深層学習)技術の快進撃が続いている。
米グーグルが2017年に「Transformer」を、続いて2018年に「BERT」を考案したことで、それまで芳しい成果が出ていなかった自然言語処理へのディープラーニングの応用に一気に道が開けた。以来、現在に至るまで革新的な成果が次々と出てきている。
大量のデータで事前学習させておけば、わずかなfine-tuning(再学習)で自然言語処理の様々なタスクに適応できるようになったり、米OpenAIのモデル「GPT-3」に至ってはfine-tuningなしでわずかな例示(few-shot)のみで多様なタスクに対応するようになった。OpenAIはこのGPT-3開発の知見を基に「ディープラーニングのscaling law(スケール則)」を提唱。モデルのパラメータ数、学習データ量、計算リソースを増やしていけば、性能はそのままスケールしていくとまで発表している1)。
2021年1月には米Microsoft社のディープラーニングモデル「DeBERTa」が、自然言語処理のベンチマーク「SuperGLUE」で、初めて人間のスコア89.8を上回る90.3を達成。グーグルのモデル「T5+Meena」も90.2を実現し、人間のスコアを越えた。
ついに深層学習が対話ロボへ
こうした自然言語処理での目覚ましい発展は、単にAIの領域にとどまることはなく、ロボットの開発にも大きな影響を及ぼす。人間と対話するチャットボットやコミュニケーションロボットにおいて、対話の質を従来と比べて大幅に向上させられる可能性があるのだ。
「最新のディープラーニング技術をフル活用すると、一体どれほどのコミュニケーションロボットを作れるのか」─。
このテーマに挑んだ企業がついに表れた。SNS「mixi」やゲーム事業を手掛けるIT企業のミクシィ(mixi)だ。数年間にわたり、Transformerを活用したディープラーニングベースの対話AIを自社開発。学習データも数千万に上る膨大な量を自社で作成・収集。2021年4月に家庭向けのコミュニケーション(対話)ロボット「Romi」として一般発売する(図1)注1)。
ミクシィ創業者でRomiの開発を主導してきた取締役会長の笠原健治氏は「SNSなどコミュニケーションを主軸にした事業を手掛けてきた企業として、いつかディープラーニング技術を生かし、新しいユーザー体験となるコミュニケーションサービスを作りたいと考えてきた」と語る(笠原氏インタビューを今号に掲載)。
コミュニケーションロボットは2014年ころからのロボットブームに乗じて大企業からスタートアップまで数多くの企業が投入していた。しかし、当時はTransformerやBERTなど自然言語処理においてブレークスルーとなるディープラーニング技術がまだ登場しておらず、それらロボットは人間が記述したシナリオに基づいて対話するルールベースのものが大半だった。
商品として「AIを搭載」などとうたっていたとしても、ルールベースの対話エンジンでは対話内容は限定的かつ定型的とならざるを得ない。このため、当時のコミュニケーションロボットはユーザーに飽きられやすく、事業として鳴かず飛ばずのものが多かった。結果、事業として行き詰まり、スタートアップなどでは倒産する企業が相次いだ。TransformerやBERT登場以前のコミュニケーションロボットは死屍累々の歴史だったといえる。
しかし、潮目は変わった。自然言語処理向けディープラーニング技術でブレークスルーとなる革新が起きた今、コミュニケーションロボットやチャットボットをルールベースやシナリオベースのみで実装する必然は最早ない。End-to-end(E2E)のディープニューラルネットで、ルールベースを上回る対話エンジンを実装できる時代になったのだ。
バーバル系への挑戦再び
自然言語処理の技術が稚拙だった時代には、ユーザーと言葉を通じて(バーバル:verbal)対話させるという商品企画を避け、あえて言葉をしゃべらせない非言語(ノンバーバル:non-verbal)のコミュニケーションロボットを指向する動きも相次いだ。最近ではソニーが2018年に発売した家庭向けロボット「aibo」、ベンチャー企業のGROOVE Xが2019年12月に投入した「LOVOT」などがそれである。
ノンバーバル系のコミュニケーションロボットへの挑戦はそれ自体で価値あるものだ。しかし、まだ十分とは言いがたいものの、自然言語処理の技術が大きく飛躍したからには、コミュニケーションロボットにおいても、ノンバーバルに「寄せる」必要性は以前より薄くなった。「バーバルなコミュニケーションロボット」という商品企画を再び積極的に検討してみる価値が出てきたといえるだろう。
とはいえ、一時、あれほど多くの企業がコミュニケーションロボット事業に挑んだにもかかわらず、TransformerやBERTなど最新のディープラーニングベースの自然言語処理技術を前提にしたコミュニケーションロボットにチャンレンジする企業はほとんどない。ミクシィを除いては無風状態といっても良いだろう。
ユーザーとの対話はまさに自然言語処理そのものであるが、以前、コミュニケーションロボットにチャレンジした企業の多くが、TransformerやBERTなどその後の自然言語処理技術の発展をほとんどウォッチしておらず、真価に気付いていないようにも見える。
その意味で、今回、ミクシィがコミュニケーションロボット事業に挑むというのは象徴的だ。現在のバーバル系のコミュニケーションロボットは、過去にロボットを手掛けてきたような企業よりも、機械学習やITサービス、クラウドの知見を持ったネット企業の方が着想・参入しやすいといえるだろう。人間に台本を作らせ、ルールベースで対話エンジンを実装していたような企業には、現在のTransformerベースのコミュニケーションロボット開発は縁遠いものなのかもしれない。
さて、ミクシィが開発したコミュニケーションロボットとはどのようなものなのか。核心である彼らの対話エンジンについて見ていく前に、まずはロボット自体の概要を見ていこう。