「他人が何も教え込まなくても、子供のように試行錯誤を重ねることで適切な動きや答えを見つけ出す」─。
人工知能(AI)という言葉のイメージに最も近い、こうした振る舞いを実現する技術「深層強化学習(DRL:deep reinforcement learning)」が、いよいよ実機のロボットで成立するようになってきた。
Elon Musk氏らが設立し、米グーグルや米Facebook社と並ぶディープラーニング研究の世界トップ組織である米OpenAIが、5本の指を持つロボットハンドで複雑な動作を実現するシステム「dactyl(ダクティル)」注1)を開発したのである(図1)1-2)注2)。
人間の手に近い20もの自由度がある5指ハンドを巧みに操り、手の平の上にある立方体の箱を落とさないよう転がして、任意の向きにするタスクを行えるようにした。
この取り組みでは、設計者は指の動作を一切教えていない。一般にディープラーニング技術ではシステムに対し、所望の入出力関係を教師データとして与える「アノテーション」を行うが、教師なし学習の一種である深層強化学習では、それが不要である。
タスクの目標やゴール自体は人間が指定する必要があるものの、個々の指の動作は一切、プログラムする必要がない。強化学習システムが大量のGPUやCPUを動員して学習空間を探索し、50時間近くの試行錯誤を重ねて自発的に動作を見出したのだ。究極の「ティーチ(教示)レス」を実現する技術だと言える。多指ハンドや多関節ロボットなど複雑な制御対象に向け、深層強化学習が既に実機で使えるレベルに達していることを示した。