ディープラーニング(深層学習)技術で圧倒的な技術力を持つ米グーグル。同社が単眼RGB動画からの距離画像推定で、世界最高精度を実現した。
動きオブジェクトを多く含む距離画像推定のデータセット「Cityscapes」や「Waymo Open Dataset」で、トップ性能を達成した。
ディープラーニング技術による教師なし学習を活用しており、距離画像の訓練データは一切不要。YouTubeのようなRGB動画のみを大量に与えれば、学習を通じて距離画像を推定できるようになる(図1)1)。
最大の特徴は、画面内で多くのオブジェクトが動くダイナミックな光景であっても、頑健に対応できるようにした点だ(図2)。距離画像だけでなく、各オブジェクトの3次元的な並進運動すらも画素単位で出力できる。加えて、カメラ自身の運動(オドメトリ)も推定可能だ。
一般に距離画像はLIDARや距離画像センサ、ステレオカメラといったセンサを用いることでも得られるが、単眼RGBカメラと比べればコストがかさむ。RGB動画のみから高精度に距離画像を得られれば、SLAMなどのシステムを組む際、より低コストになり有用である。ロボットでの利用以外に、YouTubeのような動画からも3次元構造を復元できるようになれば利用価値が高い。