全7387文字
PR
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 自然言語処理の領域で大きな成果を上げ、一大旋風を巻き起こしている技術が、ロボット向け強化学習の領域についに“襲来”した。人間が書いたかのような自然な文章を生成できるディープラーニング技術「GPT(generative pre-training)」など、自然言語処理の世界を一変させた「Transformer」系のモデルが、なんと全く異なるタスクであるロボット制御の世界で大きな効果があることが分かったのだ。

 ロボットに「言語を扱わせる」という話ではない。純粋にロボットに何らかの動作を獲得させる際の強化学習で、Transformerが既存手法を凌駕するような高い性能を発揮するのである。しかも、Transformerを単に強化学習の部品として使うのではなく、過去数十年間研究されてきた強化学習の枠組み、パラダイム自体をガラリと変えてしまうような成果だ。

 驚くべき成果を発表したのは、ロボット強化学習の権威とも言えるPieter Abbeel氏ら米University of California Berkeley(UCB)の研究グループと米グーグルのロボット研究者だ(図1)。また、Abbeel氏の教え子で、同じくロボット強化学習の権威であるSergey Levine氏らのグループも、ほぼ同時期に似たコンセプトの成果を発表1)。Abbeel氏はUCBで教授を務め、一方のLevine氏も同大で准教授を務めており、いずれもUCB内のAI研究組織「BAIR(Berkeley Artificial Intelligence Research)」に所属しているが、研究そのものは独立に実施されたという。ロボット強化学習の世界的権威たちが、くしくも同時期にほぼ同じ成果にたどり着いた。ある意味、必然とも言える進化の方向性だ。

図1 開発したPieter Abbeel氏の研究グループ
図1 開発したPieter Abbeel氏の研究グループ
自然言語処理発のTransformer(self-attention)を強化学習に応用した技術を開発した。左は用いたシミュレータ。(写真左:OpenAI)
[画像のクリックで拡大表示]