2022年は、大規模な「ディープラーニング(深層学習)技術」の波が、ついにロボットの物理的な動きの生成にまで押し寄せてきた1年でした。
ロボットにディープラーニング技術は適用されていなかったの?と思われるかもしれませんが、そのあたりの事情を、ロボット・AI技術の専門誌『日経Robotics』の編集長として、同分野の展望とともに少しご紹介したいと思います。
ディープラーニング技術は2012年の勃興以来、大きな発展を遂げてきました。世界中の多くの研究者がこの技術に注目し、コミュニティーが大きくなることで技術進化が加速。米国の巨大IT企業などもディープラーニング技術の研究開発に注力したことで、10年以上前の「ニューラルネット 冬の時代」には想像しなかったようなブレークスルーが次々と起きました。近年では、画像生成AIの「Stable Diffusion」や「Midjourney」、チャットボットの「ChatGPT」などが登場し、ディープラーニング技術の威力・真価が技術者の間だけでなく、一般の人々にまで認知され始めたといえるでしょう。
これまでディープラーニング技術が花開いたといえる応用分野(ドメイン)は、大まかには以下の3領域です。
- 1. 画像(画像認識、画像生成など)
- 2. 音声(音声認識、音声合成など)
- 3. 自然言語処理
目や口は良いけれど
この3つの領域では社会に影響を与えるほどの成果(正負両面の影響があります)が実現できているのですが、ロボットの物理的な動きの生成、つまり「行動AI」とも呼べる領域では、実はディープラーニング技術は“いまだ”芳しい成果を出せていない状況なのです。フィジカルな動きや、今何をすべきかという行動のプランニングの部分となると、現在のディープラーニング技術はあまり「使えるレベル」に至っていないのです。「目(認識)」や「口(言語)」はかなり良いものができているけれど、どうにも「腕・手・脚」がいまひとつな状況です。
ただ、腕・手・脚の中でも、それほど器用な動作が必要ない「脚」については、2022年に入ってだいぶ良くなってきました。例えば、以下のような技術です。
いずれもディープラーニング技術を用いて、脚の動作(専門的には「歩容」といいます)を生成しています。路面の状況をLiDARなどのセンサーで把握したり、歩行速度などの指令を受けて、そこから脚の動作をディープラーニング技術ベースの行動AIが生成しています。
これに対し、「腕・手」もしくは「行動そのもののプランニング」といったところになると、2022年くらいまでは拙いレベルでした。これは米Google(グーグル)のようなディープラーニング技術で世界最高峰の企業でもそのような状況だったのです。学会などで出てくるこの分野のデモ動画などをもし一般の人々が見たら、「一体何がうれしいの?」とあきれられてしまうだろうほど、稚拙なレベルでした。「ディープラーニング技術などそんなものだ」と冷ややかに見る向きもあるようですが、ディープラーニングに限らず、新技術というのは常にネガティブな意見がセットで出てくるものですので、それはひとまずおいておきましょう。
機械学習の新べき乗則
まず読者の方々に覚えておいていただきたいのが、画像・音声・言語というディープラーニング技術が花開いた3領域で、発展の“エンジン”となっている法則があるということです。
それが、「機械学習の新べき乗則(scaling law)」というものです。