全3246文字
PR

 なぜGPT-3が画期的な成果を挙げられるようになったのか。都立大学の小町准教授は「GPT-3のモデル構造は初代のGPTから変化していない。モデルのパラメーターと学習データ量を巨大にするだけで、生成する文章の水準が向上し、わずかな訓練で新しいタスクに対応できるようになった」と語る。

 GPT-3のニューラルネットワークのパラメーター数は1750億個で、前バージョンで2019年に公開したGPT-2の15億個と比べて100倍以上の規模だ。2018年に公開されたBERTと比べると500倍以上にもなる。事前学習した文章データの量も45TBと膨大だ。BERTの事前学習データ量は約3000分の1である16ギガバイト(GB)に過ぎなかった。

 「パラメーターと学習量を大きくするだけで言語モデルの性能が向上するメカニズムはまだ解明されていない。」。小町准教授はそう述べる。しかし性能向上の理由は巨大化以外に存在しない。実際にGPT-3の論文によれば、GPT-3のパラメーターを減らすと生成される文章のレベルも下がるということが報告されている。前述の偽ニュース記事判定テストでは、1750億パラメーターでの正答率は52%だったが、130億パラメーターでは55%、27億パラメーターでは62%で、1億2500万パラメーターでは76%だった。パラメーターが少なくなるほど、偽記事だとバレやすかった。

 GPT-3が学習したデータの種類が豊富だったことも重要だったようだ。富士通研究所の人工知能研究所に所属する牧野拓哉研究員は「GPT-3がソースコードを上手に生成できたのは、事前学習したデータの中にプログラミングに関する質問サイトの『Stack Overflow』のデータが含まれていたからだろう」と推測している。

 威力を見せつけたGPT-3だが、弱点も大きく3つ存在する。

 第1は解ける問題の種類が限られる点だ。都立大学の小町准教授は「GPT-3は45TBの文章のパターンを丸暗記しているようなものだ。学習したパターンに該当する問題は解けるが、それ以外は解けない」と指摘する。

チーズは冷蔵庫で溶ける?

 富士通研究所の牧野研究員は「論文でも“If I put cheese into the fridge,will it melt?”(チーズを冷蔵庫に入れたら溶けますか)という質問に対する回答をGPT-3が間違えたと報告している。物理常識的に当たり前のことは、Webの文章として書かれにくいためだ」と述べる。人間は「チーズは火にかけると溶ける」「冷蔵庫の庫内は10度以下」と推論して回答できるが、GPT-3にはこうした推論はできない。

 GPT-3は文章中に出てくる単語について、前の文脈にある単語との関係性についてのみ分析してパターンを学習している。そのため後ろの文脈にある単語との関係性が分からないと解けない問題は苦手だ。具体的には、ある単語が2つの文に出現するときにそれが同義か判断する問題や、表現が異なる2つの文の意味が同じか判断する含意の問題などが苦手だ。なおBERTは前だけでなく後ろの文脈の関係性も分析している。GPT-3における単語の関係性に関する問題は、技術的には解決できる可能性がある。

 GPT-3の第2の弱点は、文章生成能力がフェイクニュースの流布などに使われかねないという懸念だ。オープンAIは前バージョンのGPT-2を開発した際にも、フェイクニュースの生成に使われる恐れがあるとして、ソースコードの公開などを遅らせていた。オープンAIはGPT-3に関しても、公開したのは論文とAPIだけで、GPT-3本体のソースコードや事前学習済みの言語モデルは公開していない。GPT-2同様、悪用を懸念しているもようだ。

 ソースコードなどが公開されたとしても、GPT-3には第3の弱点があるため、一般の企業には使いこなせないかもしれない。日本の自然言語処理スタートアップであるストックマークの近江崇宏氏は、GPT-3のモデルがあまりに巨大過ぎることを弱点として指摘する。近江氏は2020年4月に東京大学の特任准教授から同社に転じたAIの専門家である。