近年のAI(人工知能)における重要なトレンドは、機械翻訳など自然言語処理(NLP)の分野で大きな成果をあげたアーキテクチャーである「Transformer」が、NLP以外の分野にも適用され、従来手法を上回る性能を示していることだ。
Transformerは自己注意機構と呼ばれる仕組みで、もともとは米Google(グーグル)が機械翻訳のために開発し、2017年に論文「Attention Is All You Need」で詳細を発表した。自己注意機構とは簡単に説明すれば、データのどこに注意(着目)すべきかを、データの種類や内容に応じて変化させる仕組みである。
機械学習におけるデータのモデル化とは突き詰めて言うと、情報の意味を失わずに圧縮し、計算可能な状態に構造化することである。それまでの深層学習(ディープラーニング)アーキテクチャーは、どのデータに対しても同じフィルター(関数)を適用することでデータをモデル化していた。そのためモデル化に際して重要な情報が失われることがあった。
それに対して自己注意機構であるTransformerを用いると、データの種類や内容に応じてフィルターが変化するため、注意すべき重要情報を失わずにデータをモデル化できる可能性が高まる。つまり機械学習モデルの表現力を向上できる。これがTransformer躍進の原動力となった。
発表年 | 名称 | 開発企業 | ジャンル | 用途 |
---|---|---|---|---|
2017年 | Transformer | グーグル | 機械翻訳 | 機械翻訳のために開発されたニューラルネットワークで「自己注意機構」と呼ばれる仕組みが実装された |
2018年 | BERT | グーグル | 言語モデル | 「穴埋め問題」を解くことによる自己教師あり学習を導入。文章の意味理解が可能に |
2019年 | Temporal Fusion Transformer | グーグル | 時系列分析 | Transformerを時系列データの分析に応用した |
2020年 | GPT-3 | オープンAI | 言語モデル | 事前学習済みの巨大言語モデルが、プロンプトエンジニアリングによって様々なタスクに対応できることを示した |
2020年 | Vision Transformer | グーグル | 画像認識 | Transformerを応用した画像認識モデル |
2021年 | CLIP/DALL-E | オープンAI | 画像生成 | テキストと画像を同じようにベクトル化し、テキストから画像、画像からテキストへの変換を可能にした |
2021年 | AlphaFold2 | ディープマインド | タンパク質分子構造予測 | タンパク質の分子構造を予測するモデルで、立体構造のモデル化にTransformerベースのEvoformerを使用する |
2021年 | Decision Transformer | カリフォルニア大学バークレー校 | 強化学習 | Transformerを強化学習に応用した |
2021年 | Perceiver IO | ディープマインド | マルチモーダル | Transformerの発展版で、テキスト、画像、動画、音声などを扱える |
2021年 | Masked Autoencoders | メタ | 画像認識 | 画像の分野にも「穴埋め問題」を解くことによる自己教師あり学習を導入した |
2022年 | OMNIVORE | メタ | マルチモーダル | 画像・動画・3次元データを扱えるモデル。マルチモーダルになるほど単体タスクの精度が向上することを示した |
2022年 | Flamingo | ディープマインド | マルチモーダル | テキスト・画像・動画を扱えるモデル |
2022年 | Gato | ディープマインド | マルチモーダル&マルチタスク | テキストや画像などを扱えるマルチモーダルに加えて、ゲームやチャット、ロボット操作などのマルチタスクも実現したモデル |
Transformerは機械翻訳に続き、「BERT」や「GPT」といった汎用的な言語モデルに応用され、文章の分類や質問応答、文章生成といった様々な種類のNLPタスクで高い性能を発揮した。NLPに詳しい東京都立大学の小町守教授はBERTについて「Transformerの層を深くすればするほど、言語モデルが抽象的な内容を記憶できることを示した」ことが重要だったと指摘する。言語モデルは巨大化することで、文章の意味をより正確に扱えるようになった。
その後Transformerは時系列分析や画像認識、強化学習など様々な領域に応用され始めた。変わったところではグーグルの兄弟会社、英DeepMind(ディープマインド)が開発したタンパク質分子の立体構造を予測するAI「AlphaFold2」も、タンパク質の立体構造のモデル化にTransformerを改良した「Evaformer」を使用する。
Transformerをテキストや画像だけでなく動画や音声、3次元データなど様々な種類(モダリティー)のデータに適用する「マルチモーダル」のアーキテクチャーも次々と登場している。
全体の輪郭を把握するのが得意なVision Transformer
今回はその中でも特に、Transformerの画像分野への応用について取り上げよう。従来は畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)が圧倒的な存在感を示していたこの分野でも、現在はTransformerベースのアーキテクチャーが浸透している。
Transformerを画像認識に応用した代表例はグーグルが2020年に発表した「Vision Transformer(ViT)」で、現在はTransformerベースの画像認識AIが認識精度でCNNベースのAIを上回り始めている。
ViTについて詳しい産業技術総合研究所人工知能研究センターの片岡裕雄主任研究員は「ViTは被写体の形状を把握するのに優れている。従来のCNNは全体の形状を把握するのを苦手としていた」と指摘する。
CNNは画像をまず小さなパッチに分割して、パッチごとに特徴を抽出していた。それに対してViTは画像を分割せずに、全体から特徴を一度に抽出する。そのためViTは画像全体にまたがるような大きな被写体の輪郭を、適切に把握できる。
前述したようにTransformerは、データの種類や内容に応じてデータのどこに注目すべきかを変化させる。画像認識タスクでいえば「象を認識するのであれば、キバや鼻の形状、耳の形状などに注目している。よく動くため写真によって形状が変化しやすい足などには、あまり注目しない。一方、アジアゾウとアフリカゾウを区別するといったタスクの場合は、両者の大きな違いである耳の形状に注目する」(片岡主任研究員)といった具合だという。
Transformerを画像などの分野に適用することで、2つの大きなメリットがこの分野にもたらされ始めている。