全6314文字
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 ディープラーニング(深層学習)技術で圧倒的な技術力を持つ米グーグル。同社が単眼RGB動画からの距離画像推定で、世界最高精度を実現した。

 動きオブジェクトを多く含む距離画像推定のデータセット「Cityscapes」や「Waymo Open Dataset」で、トップ性能を達成した。

 ディープラーニング技術による教師なし学習を活用しており、距離画像の訓練データは一切不要。YouTubeのようなRGB動画のみを大量に与えれば、学習を通じて距離画像を推定できるようになる(図11)

図1 単眼RGB動画から高精細な距離画像を推定
図1 単眼RGB動画から高精細な距離画像を推定
距離画像の教師データを用いることなく、単眼RGB動画のみを用いて教師なしで学習する。動画のみあればよく、カメラパラメータも不要なため、YouTubeのような動画から距離を推定できる。(写真:GoogleのH. Li et al.の論文 参考文献1より引用)
[画像のクリックで拡大表示]

 最大の特徴は、画面内で多くのオブジェクトが動くダイナミックな光景であっても、頑健に対応できるようにした点だ(図2)。距離画像だけでなく、各オブジェクトの3次元的な並進運動すらも画素単位で出力できる。加えて、カメラ自身の運動(オドメトリ)も推定可能だ。

 一般に距離画像はLIDARや距離画像センサ、ステレオカメラといったセンサを用いることでも得られるが、単眼RGBカメラと比べればコストがかさむ。RGB動画のみから高精度に距離画像を得られれば、SLAMなどのシステムを組む際、より低コストになり有用である。ロボットでの利用以外に、YouTubeのような動画からも3次元構造を復元できるようになれば利用価値が高い。