全4148文字
PR
図2 ロボットシステムの開発メンバー
[画像のクリックで拡大表示]
図2 ロボットシステムの開発メンバー
[画像のクリックで拡大表示]
図2 ロボットシステムの開発メンバー
約20人が開発に携わった(写真左)。CEATEC期間中には経済産業大臣の世耕弘成氏も視察に訪れ、筆者が説明を行った(写真右)。

 デモシステムは始めに4台の天井カメラを使い、部屋の中のどのあたりにどの物体があるのかを認識する。天井カメラがなくてもロボットは片付けることはできるが、その場合、ロボットは最初に部屋を見回し、どのアイテムがどこにあるのかを把握する必要がある。今回はデモのスピードアップのため、天井カメラを利用した。

 次に、ロボットがどの物体を取りにいくのかをプランナが決める。今回の展示では最も近くにあるものを取りにいくという単純な戦略を採用したが、重要度の高いものから片付けるといったような様々な要求に応じたプランを作ることは容易だろう。その後、HSRに備え付けられたカメラを使って物体を認識し、その物体の種類や位置、つかむ位置を推定する。この認識結果に従ってロボットは物体を把持し、片付ける位置まで運んでいき、適切な置き方を実行する。

世界2位の成績を収めた深層学習モデルを利用

 今回、特に難しかったのは物体認識と把持計画である。扱う物体の種類が約100種類と非常に多く、置かれ方のバリエーションも様々である。対象物体もタオルや靴下など不定形のものも多い。アイテムを検出すること自体が難しい上に、その物体の形状や姿勢を推定することも難しい。検出位置も高い精度が要求され、つかむ位置が数cmずれただけで、物体をつかむことができなくなる。つかむ位置も限定されており、おもちゃのジョウロや、けん玉などは正解の挟む位置はわずかしかない。

 この物体認識にディープラーニングによる画像認識器を利用した。画像認識はImageNetで人の認識精度を超えた後も驚異的に性能が向上し続けている。今回のデモシステムに利用した画像認識は、Preferred NetworksがGoogle AI Open Images Challenge 2018に出場し世界2位の成績を収めた際に用いたPFDet3)を拡張したモデルを利用しており、100台を超えるGPUを利用し学習している。訓練データは、実際にリビングのような部屋を作って様々な日用品を配置し、写真撮影を行って作成した。

 このように学習されたモデルは高い認識精度と環境変化へのロバスト性を達成し、今回のタスク実現の中心的な役割を果たした。印象的な例として、展示期間中に照明が消えるトラブルが発生し、撮影環境が大きく変化した際も、デモは止まらずロボットは正確に片付けを続けることができていた。画像認識の推論はロボットとは別に展示ブースの制御室に置かれた外部のGPU付きサーバーで実行し、1秒間に2~3枚の画像を推論することができた。今後は、ロボットに搭載されたチップ上で推論するようになるだろう。

音声やジェスチャーなどで指示可能

 ロボットには音声で指示を出すことができ、この実現のための音声認識は展示会場のノイズに強くなるような工夫を施している。また、今回の問題設定にあわせて対象物体や指示に特化するよう言語モデルの最適化も行っている。

 ユーザーは音声で、どの部分を片付けてほしいか、物体をどこに運んでほしいか、物体はどこにあるのかを指示することができる。これらの指示はロボットの動作途中でも行うことができ、また何回も繰り返すことができる。ロボットへの指示が失敗しても、すぐにもう一度繰り返し指示し、認識できるようになっている。このようにすぐ繰り返せることで認識精度が100%を達成しなくても、利用者がストレスなく指示できるようになっている。こうしたロボットを音声で指示する技術については論文4)も参考にされたい。

 ジェスチャーによる指示もできる。場所の指定など言語だけでは指示しにくい場合や(机の特定の足の付近など)や、名前の分からない物体に対する指示はジェスチャーを使うことが適しているだろう。今回のデモではジェスチャーの認識には天井付近に備え付けられた距離画像センサ(Kinect)を利用しているが、今後はロボットに備え付けられたカメラで認識するようになるだろう。

 ロボットを利用する場合、ロボットが何を考えているのか分からない、指示が的確に伝わっているかが分からないという問題がある。今回はAR技術を使ってロボットが何を考えているのかを見せるデモも行った。これによりロボットがどの物体をどのように認識しているか、ロボットが今何を考えているかを直感的に理解することができる。

 こうした目に見える機能の他にも、今回のシステム開発には多数の技術が投入されている。例えば展示会場は電波干渉が強いため、ロボットが安定的に外部サーバと通信できるよう無線ネットワークには多くの準備を行った。また、多くのサブシステムが関わる中でも開発スピードを落とさないようテスト自動化などCI(継続的インテグレーション)の実現に多くの開発リソースを割いている。

課題と今後

 今回のロボットによる自動片付けを一般家庭で実用化するための技術的な課題は残っている。把持に関してはより多くの種類に対応する必要があり、特に大型の衣類やタオル、センサが苦手な透明なボトル、微妙な力加減が必要なガラス製品などを安定して把持するためには新しい技術開発が必要になるだろう。未知物体でも安定して把持することが求められる。今回はHSRに標準搭載されている平行グリッパーと吸引ハンドを利用したが、対応物体を増やすためには新しい機構やセンサも必要になると考えられる。

 また、部屋の環境も様々な状況に対応する必要がある。段差やカーペットがある場合への対応や、環境や光源が変わっても安定して対応できる物体認識が必要だ。さらに、部屋や家の中の正確な地図情報が前もって得られなくてもこうしたシステムが立ち上げられることが望ましい。

 言語やジェスチャーによる指示も、部屋の中の多様性をカバーできるようにより表現力を増やすことが求められる。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 片付けに限らず他の家事もロボットで解いていくだろう。片付けと同じ技術を必要とするタスクは解けるだろうが(特定のモノを特定の場所に運ぶ、モノを集めるなど)、道具を使う場合や、モノを加工する(例えばダンボールの箱を開封する)といったタスクは難易度が大きく上がる。しかし、冒頭に挙げた実験でもあるように、他のタスクも人が遠隔操作さえすれば解けることは示されているので、これを自動化することは不可能ではないと考えている。

岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 取締役副社長
岡野原 大輔(おかのはら・だいすけ) 2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。