全3655文字
PR

 米Alphabet(アルファベット)のグループ内には、世界トップ級のAI(人工知能)研究チームが2つある。米Google(グーグル)のGoogle Brainと英DeepMind(ディープマインド)だ。グーグルが2022年4月に言語に関する汎用AI「Pathways Language Model(PaLM)」を発表した直後、ディープマインドが多芸さでPaLMを上回る「Flamingo」と「Gato」という2つのAIを発表した。

 2022年4月15日付の本コラムで紹介したグーグルのPaLMは、1つの機械学習モデルで言語に関する様々なタスクを処理できるAIだった。質問応答や文章生成、多段階の論理的な思考、翻訳、ソースコード生成、ソースコード修正、さらにはジョークの解説などができた。

 PaLMを解説したコラムの最後で筆者は、PaLMのベースになった「Pathways」というAIが、テキストデータだけでなく画像や音声といった様々な種類のデータを扱うことを目指して開発されたものだと指摘。様々な種類のデータを扱える「マルチモーダル」の特性を備え、さらに様々なタスクに対応できる、より万能なAIが登場するのを期待していた。

 そのわずか2週間後と1カ月後に、ディープマインドがPaLMよりさらに万能なAIを発表したのだ。テキストや画像、動画を同時に理解できるFlamingoと、ゲームプレーや画像の説明文(キャプション)生成、会話、ロボットアーム操作といった様々なタスクをこなせるGatoだ。

テキスト・画像・動画を扱えるFlamingo

 ディープマインドが2022年4月28日(現地時間)に発表したFlamingoは、1つの機械学習モデルでテキストと画像、動画を同時に組み合わせて理解できる「画像言語モデル(Visual Language Model)」という種類のAIである。BERTやGPT-3などで近年注目されている「言語モデル」に画像や動画を扱う能力を加えたものになる。

 FlamingoはBERTやPaLMと同様に、自己注意機構(SA、Self Attention)であるTransformerを多段に積み重ねるニューラルネットワーク構造を採用する。またFlamingoはPaLMと同様に、1つの機械学習モデルで質疑応答や文章生成など様々なタスクに対応できる。

 Flamingoはあらかじめ、1億8500万枚の画像や182ギガバイト(GB)のテキストを含む「MultiModal MassiveWeb(M3W)」データセットや、18億枚の画像に対してテキストで注釈が付けられた「ALIGN」データセット、3億1200万枚の画像とテキストのペアからなる「LTIP」データセット、2700万本のショートビデオとテキストのペアからなる「VTP」データセットによって学習してある。

 Flamingoに対して何か新しいタスクを行わせたい場合は、タスクの例を数個だけ追加学習させる。そうするとFlamingoは、そのタスクが実行できるようになる。

 例えば「動物の画像」と「その動物の名前と生息場所を説明する文章」の組み合わせを数個学習させる。ディープマインドが論文で示した例では、「チンチラの画像」と「これはチンチラです。チリで主に見かけられます」、「柴犬の画像」と「これは柴犬です。日本でとても人気があります」との組み合わせを学習させた上で、「フラミンゴの画像」をFlamingoに与えた。するとFlamingoは「これはフラミンゴです。カリブ海地域や南アメリカで見かけられます」という文章を出力した(文章はすべて英語)。

 従来の言語モデルも、大量の文章によってモデルをトレーニングした後に、数十~数百文例を追加学習することで、新しいタスクに対応できた。それに対してFlamingoは、わずか数例の追加学習で新しいタスクに対応できる。

 各タスクをこなす性能はPaLMの方がFlamingoより上だ。さらにPaLMは追加の学習なしに、様々なタスクに対応できた。しかしFlamingoは、様々な種類のデータを扱えるというPaLMにはない能力を備える。

ゲーム、チャット、ロボット操作ができるGato

 PaLMやFlamingoが様々なタスクを処理できるといっても、出力されるのはテキストだった。それに対してディープマインドが2022年5月12日(現地時間)に発表したGatoは、テキストだけでなく様々なアクション(行動)を出力できるという点で、より様々な種類のタスクが実行できるAIである。

 具体的にはGatoは1つの機械学習モデルによって、様々な種類のビデオゲームをプレーしたり、チャットボットになったり、画像にキャプションを付けたり、ロボットアームを操作して色つきブロックを並べ替えたりと、様々なタスクを処理できる。

 ディープマインドがGatoに学習させたのは、604種類ものタスクの実行例だ。例えばビデオゲームであれば、ゲームのシミュレーター上で他のAIがプレーした結果を大量に学習させる。ロボットアームの操作に関しては、3D(3次元)のシミュレーション環境でロボットアームに様々な動作をさせたデータを学習させた。その結果、様々な種類のタスクを実行できるようになった。