PR

 そこでDAMLを考案したLevine氏らは発想を転換し、思い切った構成を取った。審美眼となる上部の目的関数Lψは、特に何らかの教師データとの差を取るのではなく、単純にDNN本体から得た情報を基に、追加の3層CNNで次元を1次元に圧縮するだけとしたのである。ただし、時系列方向の情報は加味できるよう、時系列方向にもフィルタを掛ける畳み込み層とした。

当初は不正確な値を出力

 教師データとの差を取っている訳でもないため、当然、この目的関数Lψは学習の当初は何の根拠もない、でたらめな情報を出力する。しかし、DAMLでは学習の2段階目で、ロボットのデモ映像を使える。人間のデモ映像と異なり、ロボットのデモ映像を学習する際は、ロボットが実際にその動作を行った時の関節角、関節速度といったデータが使える。このため、その時点でのDNNの出力(ロボットの動作指令)とこの教師データとの差を取れば、DNN本体を更新する誤差情報が得られる。

 DAMLの肝は、この誤差情報を、でたらめな情報を出力していた上部の目的関数Lψに戻す点にある。何も手掛かりがなく、でたらめな情報を出力するしかなかった上部の目的関数も、下部の目的関数LBCが出した誤差情報を得て、初めて根拠のある学習ができるようになる注2)。End-to-Endで層同士がつながっていれば、どこか1カ所で得られた誤差情報を隅々まで伝播させ、何らかの学習はできてしまうというニューラルネットの柔軟性を生かした形だ。なお、ロボットのデモ映像時の動作は、DAMLでは遠隔制御などによって操作する。

注2)図4の④にあるパラメータの更新式で、∇がθとψの両方について表記してあるのは、DNN本体(θ)とLψ(ψ)の両方を更新するという意味である。

 人間がスポーツの練習をする際も、コーチのお手本をずっと立って見ているだけでは一向に吸収できないだろう。これがDAMLでいえば、人間のデモ映像を扱う学習の第1段階に相当する。学習当初の上部の目的関数が、でたらめな情報を出力するのと似ている。実際に自分の身体を動かしてみて、手足などに掛かる重みや力加減を実感してみると、DAMLにおける学習の第2段階のように、実体験に基づく誤差情報が得られ、その体験を基に動作を少しずつ修正できるようになるわけだ。

 このような2段階の学習をさまざまなタスクについて繰り返すと、上部の目的関数Lψは次第に鍛えられ、他人のプレー(人間の動作)のポイントを鋭敏に見抜く審美眼のようになっていく。一連の学習を終え、有能なスポーツ選手のようになった状態では、審美眼が十分に磨かれているため、コーチのお手本をわずか1回(one-shot)見ただけで、すぐにその動作を自分で再現して真似できる。

 この2段階の学習では、人の動作とロボットの動作がどう対応づけられるかというマッピングも非明示的に獲得していることとなる。模倣学習については本誌が2017年12月号のアセントロボティクスの記事で解説したように、「逆強化学習(inverse reinforcement learning)」を使ってお手本のタスクの報酬関数を推定する手法や、生成モデル「GAN(generative adversarial network)」を使う「InfoGAIL」といった手法がある(表1)。しかし、その多くは単一タスクを想定している。DAMLでは、学習時にはさまざまなタスクの例示データを利用しており、それら複数のタスクに共通する要素のような動作を獲得しているとみられる。

メタ学習を行うDAML

 DAMLのこうした2段階の学習の仕組みは、機械学習分野では「メタ学習(meta-learning)」と呼ばれる。メタ学習とは単純に学習を行うだけでなく、「学習のための学習(learning to learn)」を行うという意味である。1サンプルだけで再学習を完了させられるような質の良いadaptation目的関数を、通常の学習の時に獲得させるため、このように呼ばれる。

 実はUCBのLevine氏らはDAMLの発表に先立って、「MAML(model-agnostic meta-learning)」というメタ学習のための汎用的な仕組みを機械学習の国際学会「ICML」で2017年8月に発表している5)。MAMLもDAMLと同様、再学習を数サンプルで終えられるような良い目的関数をメタ学習のフェーズで同時に学習させる。ディープラーニングに限らず、他の機械学習手法を使った識別や回帰、強化学習などにも適用できる。

 DAMLは、この汎用的なMAMLのアプローチをロボットでの「ドメイン適応(DA:domain adaptation)」向けに拡張したものである。ドメインとは本誌が2018年2月号の「Amazon Robotics Challenge」の記事でも解説したように3)、画像などの学習データであれば、それを作成・撮影したシチュエーションのことである。画像を撮影する角度や背景、照明条件、カメラの種類、画像に写り込む対象物のジャンルなどがドメインに相当する。ドメイン適応とは、学習データを作成した際のドメインと、実際の推論時の入力データのドメインが異なる際、それを機械学習アルゴリズム側の工夫で対処(適応)しようというものだ。

 今回のDAMLでいえば、例えば、デモ映像中でタスクを実施しているのが誰なのかがドメインに相当する。人間なのか、ロボットなのかという違いである。DAMLはこのほか、タスクで取り扱う対象物、対象物の背景、カメラ位置や種類といったドメイン変動に対処できる。

 実際にいくつかのタスクでDAMLを検証した結果が図5である。数十種類ほどの対象物を使い、1000個ほどの例示データを用いてメタ学習させた。ある対象物をピッキングして皿やコップに入れるといったタスクである。ドメイン適応により、メタ学習した際にはなかった未知の対象物でもタスクを実施できるほか、皿の配置などが変わったりしても対処できる。

図5 DAMLでの模倣学習の例
図5 DAMLでの模倣学習の例
人が例示している動作の映像を1サンプルのみ与え、それと同様の動作をロボットに実施させた。対象物の配置や背景などが教示時と異なっていても対応できる。これらの動作をプログラミングやソフトの変更を一切することなく、「動作をやって見せる」だけで実現できる。(写真:UCB、https://www.youtube.com/watch?v=1eYqV_vGlJY)
[画像のクリックで拡大表示]

 精度はピッキングして皿に入れるといったタスクでは80%、皿に入れるだけのタスクであれば94%ほどである(表2)。DAMLの代わりにRNNの一種である「LSTM」を使ったり、タスク完了後の画像をDNNに入力して学習させたようなケース(contextualな方策)では、ドメインが変わるとロボットがフリーズして動けない局面などが発生。精度も数十%以下と低かった。

表2 DAMLで模倣学習を実施した場合の精度と他手法との比較
表2 DAMLで模倣学習を実施した場合の精度と他手法との比較
[画像のクリックで拡大表示]

ロボ版のImageNetなるか

 DAMLのようにone-shotでのドメイン適応が可能になれば、「膨大な学習データが必要」というディープラーニング技術の従来の弱点が大幅に解消される。DAMLでもメタ学習時には一定量の学習データが必要だが、それはロボット・システムを開発するメーカー側や機械学習コミュニティ全体で実施すれば済むことである。ユーザーの手元でアプリケーションを踏まえた再学習(adaptation)が1サンプル(one-shot)で済むようになるインパクトは大きい。

 ただし、現状のDAMLで適応できるドメインの変化は、タスクで扱う対象物、背景、カメラアングルなどに限られる。メタ学習時に扱っていない、全く新規のタスクをドメイン適応として対処することはできない注3)。人間でも、野球の練習をしていても、必ずしもサッカーがうまくなるとは限らないのと似ている。

注3)今回のDAMLは、メタ学習時の2段階目の目的関数LBCにおいて、DNNの出力と例示時のロボットの動作指令との誤差を取っている。このため、この2段階目については、時系列の軌道データを直接、教師あり学習する「behavior cloning(BC)」に相当する。BCは時間とともに誤差が蓄積するという欠点がある。今回のDAMLでは、この誤差蓄積の問題については「解決されていない」(Finn氏)という。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 理想的には、人間の日常生活や企業の業務で発生するような、あらゆるタスクをメタ学習させておき、ロボットに行わせたいニーズがあるタスクについてはone-shotでドメイン適応できるようになると好都合である。ImageNetが1000種類もの物体についてアノテーションされ、画像認識用途ではさまざまな局面で役立っているように、ロボット模倣学習版のImageNetのような巨大データセットが世界全体で整備できれば、この分野の進展が見込めそうだ。

 今回のDAMLの論文の主著者の1人で、Levine氏の愛弟子でもあるChelsea Finn氏は本誌の取材に対し「全く新規のタスクにドメイン適応できるよう、データセットを大規模にする取り組みを現在実施している」と語る。

1)T. Yu et al., “One-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning,” https://arxiv.org/abs/1802.01557
2)進藤、「社外取締役は久多良木氏、恵比寿にある謎のAIベンチャー、新型ディープラーニング『生成モデル』を自動運転に」、『日経Robotics』、2017年12月号、pp.3-12.
3)進藤、「学習していない未知の物体をどう認識するか、Amazon Robotics ChallengeでのMITらの挑戦」、同上、2018年2月号、pp.10-14.
4)進藤、「ロボットの行動生成にディープラーニング、CNNと強化学習で連続値ベースの運動が獲得可能に」、同上、2016年7月号、pp.14-19.
5)C. Finn et al., “Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks,” ICML 2017, https://arxiv.org/abs/1703.03400