全4173文字
PR

自然言語処理(NLP)で大きな成果をあげたTransformerベースの言語モデル。それが現在、画像や動画、音声などのNLP以外の分野も席巻している。興味深いのは扱えるデータの種類が増えるほど、認識精度なども向上する点だ。

 Transformerベースの巨大言語モデルは最近、「基盤モデル」と呼ばれ始めている。応用分野がもはや言語だけではなくなったからだ。

 Transformerはもともと、機械翻訳のために開発された仕組みだが、その後は時系列分析や画像認識、動画認識、音声認識、強化学習など様々な領域に応用され始めた。変わったところでは英ディープマインドが開発したタンパク質分子の立体構造を予測するAI「AlphaFold2」も、タンパク質の立体構造のモデル化にTransformerを改良した「Evoformer」を使用する。

 Transformerベースのアーキテクチャーが、様々なデータを扱う機械学習モデルに適用されているだけではない。1つの機械学習モデルだけでテキストや画像、動画や音声、3次元データなど様々な種類(モダリティー)のデータに適用する「マルチモーダル」の取り組みも進んでいる。

(イラストレーション:Hyaku)
(イラストレーション:Hyaku)
[画像のクリックで拡大表示]

 従来は、ある種類のデータを扱えるようにするためには、データの種類ごとに機械学習モデルをトレーニングする必要があった。それがマルチモーダルの場合は、単一モデルを様々な種類のデータでトレーニングし、単一モデルで様々な種類のデータを取り扱う。

 例えばディープマインドが2022年4月に発表した「Flamingo」は、1つの機械学習モデルによってテキスト、画像や動画が取り扱い可能だ。同社はFlamingoを「視覚言語モデル」と呼ぶ。

 Flamingoは画像や動画に関する質問に、文章で応答できる。例えばフラミンゴが写った画像について「これは何?」と問いかけると「フラミンゴです。生息地はカリブ海や南アフリカです」と返答する。興味深いところでは、映画「アナと雪の女王」の画像をFlamingoに与えたうえで「このサウンドトラックの収録曲は」と問うと「エルサを演じたトニー賞受賞俳優のイディナ・メンゼルが歌う“Let It Go”や“For the First Time in Forever”などです」と返答する。こうした質問応答タスクはいずれも、例題と回答例を数例与えるプロンプトエンジニアリングによって開発されている。

表 主なTransformerベースの機械学習モデル
テキストから画像、動画、3次元データへ応用先が広がる(出所:表は日経クロステックが作成)
表 主なTransformerベースの機械学習モデル
[画像のクリックで拡大表示]