全3129文字
PR

 米Google(グーグル)が数年にわたって開発を進めてきた万能AI(人工知能)、「Pathways」の実力が明らかになった。Pathwaysは1つの機械学習モデルが最大数百万種類のタスクに対応できるという「万能」もしくは「汎用」のAIだ。従来のAIが1モデル1タスクの専用品であるにもかかわらず、タスクを処理する性能は汎用であるPathwaysが上回った。驚くべき威力だ。

 グーグルは2022年4月4日(米国時間)、自然言語処理に関する複数種類のタスクを処理できる「Pathways Language Model(PaLM)」を発表した。自然言語による質問応答や文章生成などができる言語モデルと呼ばれるAIをPathwaysによって実装した。言語モデルは近年、BERTやGPT-3などがめざましい成果をあげたことで注目されている。

 1モデル1タスクの専用品である従来の言語モデルで別のタスクを処理させるには、それ用の機械学習モデルを改めてトレーニング(訓練)し直す必要があった。それに対してPaLMは1つの機械学習モデルで、質問応答や文書生成、多段階の論理的な思考、翻訳、ソースコード生成、ソースコード修正、さらにはジョークの解説といった様々なタスクを処理できる。さらに1つのモデルで、英語だけでなく多言語によるタスクに対応可能だ。

 グーグルはPaLMのトレーニングに、7800億単語(トークン)からなる文章を使用した。これらはWebページや書籍、Wikipedia、ニュース記事、ソースコード、ソーシャルメディア上の会話などから収集した。このうち書籍とニュース記事は英語だけだが、それ以外については多言語の文章が含まれる。

GPT-3を上回るベンチマーク性能

 PaLMは多芸であるだけでなく、1つひとつのタスクの処理性能も高い。グーグルが29種類の自然言語処理に関するベンチマークを試したところ、29種類中の28種類でこれまでの最高(state-of-the-art、SOTA)を上回る成績を収めたという。

 グーグルが倒したライバルとして挙げた言語モデルの中には、同社自身が2021年12月に発表したこれまでで最高成績の言語モデルであるGLaMや、米OpenAI(オープンAI)が2020年に発表して世界に衝撃を与えたGPT-3、米Microsoft(マイクロソフト)と米NVIDIA(エヌビディア)が共同開発して2022年1月に発表したMegatron-Turing NLGなどが含まれる。

 従来の言語モデルも、大量の文章によってモデルをトレーニングした後は、数十~数百文例の「わずかな訓練(Few-shot training)」を加えることで、他のタスクにも対応できる。しかしPaLMの場合は追加のトレーニングがない「0-shot」の状態であっても、多くのタスクで高性能を発揮できる。またタスクによっては、PaLMにFew-shotのトレーニングを追加すると、性能が向上することがある。

 PaLMの特徴は機械学習モデルの巨大さだ。PaLMはBERTやGPT-3と同様に、自己注意機構(SA、Self Attention)であるTransformerを多段に積み重ねるニューラルネットワーク構造を採用する。そしてPaLMのニューラルネットワークのパラメーター数は5400億にも達する。BERTのパラメーター数は3億4000万、2020年の発表当時では巨大といわれたGPT-3は1750億であり、過去最大級の規模だ。マイクロソフトとエヌビディアによるMegatron-Turing NLGは5300億パラメーターだったので、それよりもさらに大きい。

 グーグルは5400億パラメーターのPaLMをトレーニングするために、自社開発した専用AIチップである「TPU v4」を6144個搭載した巨大スーパーコンピューターを使用している。

Pathwaysが示した「規模の力」

 グーグルはPaLMに関して、ニューラルネットワークの規模が大きくなればなるほど性能が向上する「規模の力」が働くと説明する。グーグルは今回、5400億パラメーターのPaLMモデル(PaLM 540B)だけでなく、80億パラメーターのPaLM 8Bと620億パラメーターのPaLM 62Bも用意し、それぞれの性能を比較した。するとPaLM 8BよりもPaLM 62Bの方が、PaLM 62BよりもPaLM 540Bの方がベンチマーク性能は向上するとの成果が得られた。