全4652文字
PR
この記事は日経Robotics 有料購読者向けの過去記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 深層学習(ディープラーニング)の大きな特徴は、データを問題が解きやすいような表現に変換する方法を学習によって獲得する、いわゆる表現学習ができる点である。データを適切に表現できさえすれば、その後、分類や回帰などの問題は簡単に解けるのに対し、うまく表現されていない場合はその後どれだけ頑張ってもうまく問題を解くことはできない。

 また、良い表現方法を事前学習によってあらかじめ獲得しておけば後続タスクの精度を改善できるだけでなく、学習に必要なデータを劇的に減らせる。例えば、画像を入力とした強化学習においても、画像の表現学習を中心とした工夫を組み合わせることにより、必要な経験回数を1/500近くも減らすことができると報告されている1)

著者の岡野原大輔氏
著者の岡野原大輔氏

 深層学習が登場した2006年ころは自己符号化器(Autoencoder)などによる教師なし学習によって表現学習を行っていたが、2012年ころに教師あり学習が成功し始めて以降は、教師あり学習による表現学習が盛んとなっていた。しかし教師あり学習による表現学習にはいくつかの問題がある。

 1つ目は教師データを作るのにコストがかかり、利用可能なデータが限られる点、2つ目は教師あり学習で必要なタスクに特化した表現が獲得されてしまい、他のタスクに使えないような表現が獲得されてしまう点である。例えば、画像分類の教師あり学習で得られた表現には、画像中の物体の位置情報などは失われてしまっている。

 こうした問題があることから、教師なしデータを使って表現学習を行うことが求められていた。これが最初に大きく成功したのが自然言語処理の分野である。2018年のBERTや2020年のGPT-3などの大量のテキストデータを使った事前学習による表現学習は、自然言語処理の多くのアプローチを置き換えてしまった。

 自然言語処理で起きた事前学習革命を画像認識の分野でも再現しようと、自己教師あり学習による画像表現学習は多く提案されている。しかし、まだ得られた表現の精度や多様性においては成功していない。

 この画像の表現学習に対し、米Facebook社(現Meta Platforms社) AI ResearchのKaiming He氏らがBERTと同様にマスク付き自己符号化器(MAE:Masked Autoencoder)を使って実現する手法を提案した2)。He氏は画像認識で最も使われているモデルであるResNetやMask R-CNNなどの提案者であり、現在の深層学習を使った画像認識の第一人者であるといってよいだろう。

 このMAEはこれまで提案された手法と比べて単純であり、学習を効率的に実現でき、得られた表現性能が従来手法と比べて改善されている。本稿ではこのMAEについて紹介する。

Vision Transformer

 MAEは2021年に入って急速に普及したTransformerを使った画像認識システム、ViT(Vision Transformer)をベースにしている。ViTは畳み込み層を使わずTransformerを使って画像を変換する3)。既にViTを使った画像認識器は数百も提案されており4)、各画像認識タスクの精度で上位を占めるようになっている。

 まず、このViTについて説明しよう。ViTは始めに画像を重なり合わないパッチに分割する。パッチには16x16といったサイズを使い、解像度が224x224の画像は14x14 =196個(224/16=14)のパッチに分割される。次に各パッチに位置符号を加えた上で、それらを線形射影を使って特徴ベクトルに変換する。この特徴ベクトルをトークンと呼ぶ。そして、トークン列をTransformerで繰り返し変換していく。あたかも画像を196個のトークンからなる文に変換し、その文を自然言語処理で使われているモデルと全く同じモデルで変換しているとみなせる。

 最後にこれらのトークン列から用途に応じて表現を抽出する。画像全体の1つの表現が必要な場合は、CNNと同様にAveraged Poolingを使ったり、特殊なトークンを1つ用意しておき、そのトークンの表現を使う。

MAEによる表現学習

 それではMAEについて説明する(図1)。MAEは全体としては自己符合化器であり、入力の一部分をマスクした上で符号器を使って符号化し、次にそれらの符号を入力とし、復号器を使ってマスクされた入力を予測する。学習が終わった後は復号器は必要ないので捨て、符号器を使って表現を得る。

図1 Masked Autoencodersのアーキテクチャ
図1 Masked Autoencodersのアーキテクチャ
(図:文献2「K. He et al., Masked Autoencoders Are Scalable Vision Learners」より)
[画像のクリックで拡大表示]

 MAEはViTと同様に画像をパッチに分割した後、ランダムにパッチをマスクし、捨てる(例えば75%のパッチをマスクする)。次に残ったパッチをトークン列に変換し、ViTと同様にTransformerを使って符号を求める。次に符号と位置符号を入力とし、復号器を使ってマスクされたパッチの各画素値を予測し、平均二乗誤差を最小化するよう学習する。

 画素値を予測して表現学習する際は詳細を捨てたほうがよいという考えもあり、ベクトル量子化など離散化した値を予測するアプローチも提案されているが、今回はパッチ毎に画素値の平均と分散を求め、それらを使って画素値を正規化した上で予測しても同様の品質の表現が獲得できると報告している。

 なぜこの方法で画像の良い表現が学習できるのだろうか。マスクされた一部のパッチから残りのパッチの画素を予測するには、残されたパッチから画像全体の情報や意味を推定できるような表現を獲得できなければならない。例えば車が写っている画像の一部がマスクされても復元できるようにするためには、各パッチが車の先頭部分やタイヤ部分を表しているということを符号器は推定できるようにならなければならない。今回はマスクされるパッチの割合は75%と多く、人が見た場合でも画像の意味を推定するのが難しいようなタスクである。

 MAEによって獲得された表現を、画像認識や物体検出、セマンティックセグメンテーションなど様々なタスクに適用して評価した結果、従来の自己教師あり表現学習で最高性能を占めていたDINOやMoCoと比べて高い性能を達成できており、さらに教師あり学習により獲得された表現よりも優れていることが分かった。

 教師あり学習では大きなモデルを使っても性能は改善されず、むしろ悪化する場合が多いが、今回のような自己教師あり表現学習はモデルが大きいほど性能が改善されることが報告されている。これについては本連載 第68回の「機械学習の新べき乗則、大きなモデルを使うと汎化しサンプル効率も改善する」でも述べた。(マスク付き)自己回帰モデルの場合、データ自体を復元するため教師シグナルの量や種類が非常に多く、大きなモデルであるほど多くの情報を獲得できるためと思われる。また後述するようにMAEは従来手法と比べ効率的に学習できるため、従来では実験できなかった大きなモデルを扱うことができ、そこでも性能が向上していることが実際に確認された。

 MAEはBERTと良く似たアプローチであり、これまで画像の表現学習にも多く試されたと思われるが、今回初めて大きく成功した理由は大きく3つ挙げられる。

 1つ目はVision Transformerの利用である。CNNと違ってTransformerはマスクされた疎な情報をうまく扱うことができ、またマスクされているという情報も埋め込み符号として、うまく扱うことができる。2つ目はMAEの場合、マスクする割合をBERTが使っていたような15%ではなく75%と大きくしたことである。情報が離散化され凝縮されている単語に比べて画像は空間冗長性が大きい。そのため多くの部分をマスクしないと、画像の意味など推定しなくてもマスクされた画素を周辺パッチからの内挿によって推定できてしまう。簡単に予測できず、なおかつ残されたパッチから画像全体の意味がぎりぎり推定できる割合が75%だったといえる。3つ目に復号器にBERTは簡単なMLPを使っていたが、画像の画素を予測する場合には複雑な問題を解く必要があり、軽いとはいえTransformerを使ったモデルを使っている点である。

MAEは計算効率も優れている

 教師なしデータを使った自己教師あり表現学習は計算量が大きい問題があった。教師なしデータは非常に大きく、またモデルは大きければ大きいほど後続タスクの性能が改善される。大量のデータを大きなモデルで学習させるには多くの計算量が必要になってしまう。

 MAEは学習の計算効率の観点からも優れている。1つ目は符号器で75%をマスクした後、残りの25%のパッチのみで処理することだ。従来CNNなどでは入力の一部をランダムにマスクしても、疎な計算が苦手なため高速化には寄与しない。これに対しMAEはパッチをランダムにシャッフルした後に前半の25%だけを残し、それに対してViTを適用する。このため、単に入力を短くした場合とみなせ、密な計算で実現できる利点がある。この入力の一部分のみを計算したとしても密に計算できるというのは、この論文の大きな貢献部分であり、他の問題でも広く使われていくと考えられる。

 2つ目は符号器と復号器に別のモデルを使う点である。大きなモデルを使う符号器は小さな入力を扱い、小さなモデルがマスクされた入力も含めデータ全体を扱うことで、全体に必要な計算量を抑えている。

 こうした単純だが計算効率としても優れる方法を考えるのは、Kaiming He氏の得意領域である。

大きなデータ、モデルでの検証はこれから

 今回のMAEはImageNet-1Kという比較的小さなデータセットに適用されているが、今後は大きなデータセットに適用された場合にどれだけ性能が改善されるのかが注目される。データ数だけでなく、入力解像度を増やしたり、モデルを大きくすることも今回の手法を基にさらに改良すれば可能だと考えられる。こうしたことが実現されれば、自然言語処理で起きたような事前学習革命が画像認識においても起きるのではないかと考えられる。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
1)W. Ye et al., “Mastering Atari Games with Limited Data,” NeurIPS 2021, https://arxiv.org/abs/2111.00210
2)K. He et al., “Masked Autoencoders Are Scalable Vision Learners,” https://arxiv.org/abs/2111.06377
3)A. Dosovitskiy et al., “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale,” ICLR 2021, https://arxiv.org/abs/2010.11929
4)S. Khan et al., “Transformers in Vision: A Survey,” https://arxiv.org/abs/2101.01169
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 代表取締役 最高執行責任者
岡野原 大輔(おかのはら・だいすけ) 2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。