全6696文字
PR
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 「Facebookの画像認識システムは、数年前は顔の認識、不適切な画像の検出といった用途ごとに特化していた。今は基本的に巨大なものが1つあり、複数の『ヘッド』を設ける格好だ」。

 米Facebook社のVP and Chief AI Scientistを務め、ディープラーニング技術の立役者の一人でもあるYann LeCun氏は、2021年4月の講演でこう語った注1)。業界の将来の目標として「汎用的な画像システム(universal vision system)」の実現を挙げ、その先駆けとしてFacebook社の例を紹介した。その上で今後は、ラベルなしのデータでDNN(ディープニューラルネットワーク)を事前学習させ、その上で個別の用途に対応したDNN(ヘッド)をたくさん追加して再学習(ファインチューニング)する方向に向かうと主張した。

注1)米NVIDIA社が開いた開発者会議「GTC 2021」における「The Energy-Based View of Self-Supervised Learning」と題した講演の質疑応答での発言。

 こうしたDNNを作るための鍵になる技術が、同氏の講演のテーマでもあった「自己教師あり学習(self-supervised learning)」である。人手で付けたラベルがない「生の」データを学習に利用できるため、例えばインターネットにある膨大な画像を使った事前学習で、汎用的な特徴量を抽出するDNNを開発できる。あとは用途ごとのヘッドを接続して、少量のラベル付きデータで教師あり学習を実行すれば、精度の良いDNNが出来上がるわけである(図1)。