現在のディープラーニング技術の基盤となっている大規模データセット。ディープラーニング技術がブレークするキッカケとなった画像認識では、2万クラスの物体を扱い、1400万枚の画像から成る「ImageNet」という大規模データセットの存在が、技術の普及を下支えした。画像認識関連のタスクの多くでこのImageNetが事前学習のために使われ、既に産業レベルで普及している。
2019年には、それまでディープラーニング技術で芳しい成果が出ていなかった自然言語処理の領域でも「BERT」のような技術が登場。教師なし学習技術の工夫により、大規模データによる事前学習が成果を上げるようになってきた。
こうした画像認識や自然言語処理の領域で大規模データの活用が華々しい成果を上げる一方、ロボット向けの領域では、実は事前学習や大規模データセットはまだ芳しい成果が出ていない。
ディープラーニング技術など機械学習ベースでロボットに良い振る舞いをさせようとした際、画像認識領域のような事前学習によるアプローチはまだ難があり、強化学習などを通じて膨大な試行を、個々のロボットなど環境ごとに繰り返す必要がある。「sim2real」のようにシミュレータ上で学習させるアプローチであればこうした試行を実機上より高速化できるが、その場合、シミュレータと実機との間のパラメータのギャップなどが依然、課題となる。事前に大量のデータで学習を済ませておき、現場ではアプリケーションやロボットの種類ごとにfine-tuningを実施すれば実用レベルで使えるというのが、ロボット向け機械学習の長年の目標といえる。
そうしたロボット向けの大規模データによる事前学習、いわば「ロボット版のImageNet」に向けた取り組みが具体化してきた。