全3715文字
PR

近年におけるAI(人工知能)の進化は目覚ましいが、そのスピードが一段と加速している。毎月、いや毎週のように驚くような能力を備えた「すごいAI」が登場しているのだ。進化を加速させる原動力は「基盤モデル」の誕生だ。

 人間が「飲み物をこぼしました。助けてくれませんか」とロボットに話しかけると、ロボットが周囲の状況をカメラで確認して自分に何ができるか判断したうえで、近くにあったスポンジを人間のところに運んでくる――。

 米グーグルは2022年8月16日、人間が曖昧な言葉でロボットに話しかけるだけで、ロボットが取るべき行動を判断して行動計画を立案するロボット用の人工知能(AI)「PaLM-SayCan」を発表した。

図 「PaLM-SayCan」が人間に応答する流れ
図 「PaLM-SayCan」が人間に応答する流れ
曖昧な指示に基づきロボットを操作
[画像のクリックで拡大表示]

 これまではロボットを操作する場合、具体的な行動をロボットに対して人間が指示する必要があった。それに対してPaLM-SayCanは、人間の曖昧なリクエストの意味をAIが理解して、ロボットの行動計画に落とし込んでくれる。人間がロボットに合わせるのではなく、ロボットが人間に合わせてくれるようになるわけだ。

 PaLM-SayCanは人間によるリクエストを、グーグルが開発した巨大言語モデルである「PaLM(Pathways Language Model)」が解釈し、人間のリクエストに対するふさわしい回答の候補をいくつか導き出す。これは自然言語処理(NLP)における質問応答タスクを応用したものだ。

 続いてPaLM-SayCanは、ロボットのカメラが撮影した周囲の状況から、ロボットがその場で行える動作の候補をいくつか導き出す。ロボットの動作パターンなどは、あらかじめ深層強化学習によって開発済みだ。

 そしてPaLM-SayCanは言語モデルが導き出した回答候補と、周囲の環境情報から導き出された可能な動作の候補を照らし合わせて、人間のリクエストにふさわしい動作の候補を選び出して行動計画を立案する。言語モデルが導き出した話す(Say)べき回答候補と、環境情報から導き出される可能な動作(Can)の候補をマッチングすることからPaLM-SayCanと名付けられた。

 グーグルによればPaLM-SayCanで重要なのは、言語モデルであるPaLMが人間のリクエストを正しく解釈できることなのだという。PaLMはグーグルが2022年4月に発表した最新の言語モデルだ。PaLMではなくグーグルが2021年9月に発表した言語モデルの「FLAN」を使った場合、「飲み物をこぼしました。助けてくれませんか」とのリクエストに対してFLANは「申し訳ありません。こぼすつもりはありませんでした」と見当外れの回答候補を導き出してしまい、適切なロボット行動計画を作れなかったという。