米グーグルが2022年に発表した斬新なロボット技術「SayCan」。「ChatGPT」と似たような大規模言語モデル(LLM)をロボットの行動生成に生かすもので、本誌では2022年10月号で解説したが1)、このたびその後続技術が早速、グーグルから登場した(図1)。
SayCanはロボットの振る舞いのプランニングにLLMを利用しているが、今回の技術はLLMが生成した行動を基に実際にロボットを動かすための制御器(方策、policy)側の改良だ(図2)。
ニューラルネットが適用されているとはいえ、これまでシャロー(浅い)で古典的な構成が多かったロボット向け方策に、Transformerをはじめとする現代的な工夫を多く盛り込み、大幅な性能向上を実現した。
近年は「Stable Diffusion」など画像生成AIが大きな注目を集めているが、今回の技術はロボットの行動を生成する「行動生成AI(action-generation model)」といえる。
スケール性が非常に高い構成となっており、今後も継続的な性能向上が見込まれる。SayCanと対になる技術と言え、SayCanと同じくらい注目すべき技術だ。
これまでディープラーニング技術は画像、音声、自然言語処理といった領域で成果が花開いてきた。数千億パラメータもの巨大なモデル「基盤モデル(foundation model)」が出現し、ChatGPTやStable Diffusionに代表されるように実社会にまで大きな影響を及ぼすようになっている。
しかし、ロボットの行動生成AIについては、こうした大規模な基盤モデルが適用されてこなかった。巨大なモデルをロボット分野で一体、どのように生かせばよいか分からなかったからだが、その状況を変えたのがグーグルのSayCanだった。