全3877文字
PR
この記事は日経Robotics 有料購読者向けの過去記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 機械学習に必要なデータを現実世界で収集することはコストや時間がかかるだけでなく、ロボットのような物理的な動きを伴う機械の場合、危険であったり、まれな事象でそもそも集められない場合も多い。そのため、現実世界をシミュレーションした環境上でデータ収集することが期待されてきた。

 しかし、シミュレーション上で収集されたデータを学習データや検証データとして使う場合、シミュレーションと現実世界とのギャップ、いわゆるリアリティギャップが問題となる。

 シミュレーション上で学習したモデルはシミュレーション環境に過学習してしまい、現実世界の問題では大きく性能が劣化してしまう。特にニューラルネットワークのような強力なモデルを使った場合、モデルはシミュレータ上でしか起きない現象を不正に利用して問題を解こうとしてしまう。

 この問題を避けるためはシミュレーションを実世界の環境に近づけることが必要だが、シミュレータ開発は多くの場合困難であり、ロボットなどのハードウェアのシミュレーションだけでなく物理現象としての摩擦や衝突、カメラのシミュレーションなどは現実とのギャップが特に大きい。

著者の岡野原大輔氏
著者の岡野原大輔氏

 この問題を克服するために環境乱択化(Domain Randomization)と呼ばれる手法が提案された。これは環境の様々なパラメータをランダムに変えたバージョンをたくさん用意し、それら様々な環境の全てでうまくいくようなモデルを学習する。

 パラメータとしては例えば摩擦係数や衝突係数、物体のテクスチャ、光源モデルなどがある。様々な環境上で学習されたモデルは環境に多少の変化があっても対応できる、つまり環境に対して汎化しているため、環境の変種の1つである現実世界の環境に対しても、うまく動作することが期待できる。

 例えば、米OpenAIは環境乱択化を利用し5指ハンドの制御をシミュレーション上で学習し、それを現実の5指ハンド上に適用して高度な制御が実現できることを示した1)。具体的には最も複雑な5指ハンドの1つであるShadow Dexterous Handを使い、手の中にあるサイコロなどの物体を狙った向きに回転させるタスクを学習した。5指ハンドは高価であるだけでなく、故障しやすく、個体差や摩耗などによる経時変化も大きい。そのため実際の5指ハンド上で大量の試行データを収集することは不可能とみられていた。このタスクをシミュレータ環境上で構築し、環境乱択化を適用し強化学習を使って学習させた。現在の強化学習は多くの試行回数を必要とするが、このタスクでもシミュレータ上で、1つの環境向けに5指ハンドの制御を学習するには実世界換算で約3年分の試行が必要であった。また、環境乱択化の上で様々な環境に汎化した制御を獲得するには実世界換算で約100年分の試行が必要であった。これは8個のGPU、6144個のCPUコアを使ったシミュレータ上では3年分は1.5時間、100年分は50時間で実現できる。

 環境乱択化に加えて、本手法では強化学習のエージェントがRNNを使っていることが特徴的である。これによりエピソード前半の経験を元にエピソード後半の方策を変えられるようになっている。エピソード前半で環境がどのようなパラメータを持っているのかをRNNが推定し(例えば、物体が滑りやすいなど)、それに応じてその後の行動を調整し、エージェントがエピソード中に環境に自動的に適応することを期待してのものだ。

 このように、環境乱択化はシミュレーションで学習したモデルを現実世界の問題に適用することを可能としたが、いくつか問題がある。その1つに本来は現実世界の問題さえ解ければ良いのに、環境乱択化を用いて学習する場合は、それよりはるかに難しい多くの環境下でうまくいくようなモデルを学習しなければいけないということが挙げられる。そのため、モデルは必要以上に強力である必要があり、それを学習させるために、より多くの学習データが必要となる。実際、先程の5指ハンドの制御の場合は1つの環境に対する学習の30倍近くの試行が環境乱択化を適用した問題では必要となっていた。

 この問題を解決するために、米X社、米グーグルBrainらのチームは、環境乱択化を使って直接方策を学習するのではなく、観測を共通フォーマットのような正準形式(canonical version)に変換する方法を提案した2)。シミュレータと現実世界の観測を両方、共通の形式である正準形式に変換し、その上で制御することができれば、シミュレータで学習したモデルをそのまま現実世界に適用できる。

 問題は観測から正準形式への変換をどのように学習するかである。シミュレータ上の観測から正準形式への変換は、学習データをシミュレータ上でいくらでも作ることができるため容易である。それに対し実世界の観測を正準形式へと変換するための学習データは人手によるアノテーションが必要となり、膨大な時間とコストが必要となる。これを解決するため彼らは環境乱択化を使い、様々な環境の観測を正準形式に変換することをまず学習した。この変換は環境の変種に対して汎化するため、環境の変種の1つである実世界の観測に対しても正準形式に変換することが可能となる。

 彼らは、ロボットによる把持タスクについて、ロボットの肩越しに設置されたカメラからの画像を入力とし、クローズドループでアームとハンドを制御する問題を扱った。この問題では入力カメラの画像のシミュレーション結果を実際に得られる画像と一致させることが困難であった。

 彼らは、正準形式として、背景、物体を置くトレー、ロボットの腕を単色としたような表現を採用した。また、把持対象物体はテクスチャ情報のみを残した上で単色に変換したような表現を採用し物体の情報(姿勢や部位)が得られるようにした。また、腕の状態も画像から得られるように腕の各リンクはそれぞれ違う色にした。光源は固定された位置に置かれたものにした。この正準形式はsemantic segmentationと似ているが、物体のテクスチャや、正準化された光源が生み出す影などにより、より詳細な情報が表現できる形式になっている。

 環境乱択化を適用した上で各環境下の画像から正準形式への変換を学習する際には、学習を助けるために、正準形式に加えて、セグメンテーションマスク、深度情報も同時に予測するタスクを解いた。学習ではシャープな画像を変換して生成できるようにGAN(敵対的生成モデル)を利用している。

 把持学習の試行データとして、方策オフ型と方策オン型の2種類のデータが必要となる。全ての試行データを実際のロボットを使って集めた場合では方策オフ用の学習データ作成に実世界で58万回の把持の試行が必要であった。この試行には7台のロボットで数週間を要している。これに方策オン型の5000回のデータを加えると87%の精度、28000回のデータを加えると96%の精度を達成できる3)

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 それに対し、正準形式に変換する提案手法ではシミュレータ上の学習データのみを使って70%の精度で把持できるようになる。さらに実世界の方策オン用の5000回のデータを加えると精度は91%となり、28000回のデータを加えると精度は94%となる。もともと実世界でトータル60万回弱の試行で87%達成していたのが、提案手法は5000回の試行のみで91%の精度を達成でき、実世界の試行回数を1/100に減らすことができている。

 環境乱択化は人手で作ったシミュレーションだけでなく、観測から学習したモデル上に対しても適用することができる。例えば観測から環境モデルを1つではなく複数学習し、それら全てに対してうまくいくようにメタ学習する手法が提案されている4)。計算性能が今後も向上し続けることが期待される中でこのような仮想環境上での学習はより重要になってくると考えられる。

1)M. Andrychwicz et al.,“Learning Dexterous In-Hand Manipulation,” https://arxiv.org/abs/1808.00177
2)S. James et al.,“Sim-to-Real via Sim-to-Sim: Data-efficient Robotic Grasping via Randomized-to-Canonical Adaptation Networks,” https://arxiv.org/abs/1812.07252
3)D. Kalashnikov et al.,“QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation,” CoRL 2018, https://arxiv.org/abs/1806.10293
4)I. Clavera et al.,“Model-Based Reinforcement Learning via Meta-Policy Optimization,”CoRL 2018, https://arxiv.org/abs/1809.05214
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 取締役副社長
岡野原 大輔(おかのはら・だいすけ) 2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。