全4091文字

「GPT-3」は自然言語処理分野にパラダイム変化をもたらした。テキストを入力するだけで、それに「答える文章」の予測が可能になったからだ。課題は多いが、マーケティング文章の生成などビジネス活用が始まっている。

 ここ2、3年、AIの重要分野である自然言語処理の動向として「GPT-3」の登場がある。膨大な数のパラメーターを持たせて、大規模データで学習した言語モデルによって、高い汎用性と予測精度を実現しているとされる。

 GPT-3は米テスラの創業者であるイーロン・マスク氏らが設立した研究開発企業である米OpenAIが2020年に発表した。一般的な知性を持つ「汎用人工知能(AGI)に近いAIである」と各方面で話題になった。テキストデータの集合体であるコーパスを、約1750億個ものパラメーターを使用して学習している。そのサイズは約45テラバイト(TB)と大規模だ。

 GPT-3はこの巨大データを基に、ある単語の次に来る単語を高い精度で予測できる。これによって、あたかも人間が書いたような文章を自動で生成できるのだ。

 こうした文章生成以外にも、機械翻訳、情報抽出、質問応答といった、いわゆるタスクを実行できることも特徴だ。プロンプトと呼ぶ、タスクを表す特定のテキストを先頭に入力することで実行できる。

 GPT-3は従来の言語モデルと何が違うのか、どのようなビジネスに応用できるのか。また、自然言語処理の新しいパラダイムであるプロンプトを利用したプログラミングを紹介する。

追加学習なしにタスクを実行可能

 従来の言語モデルは実行したいタスクに学習を合わせる必要があった。タスクに応じて多くの正解データを集めてファインチューニングと呼ばれる追加の学習を行い、モデルのパラメーターを更新することでタスクを実行できるようにしている。

 この手法は異なるタスクを実行したい場合、それぞれのタスクで多くの正解データを収集する必要があり活用のためのコストが大きい。モデルのパラメーターを更新する追加学習にコストがかかるという課題もあった。

 一方で、GPT-3は異なるタスクを実行する場合でも、「日本語から英語に翻訳する」といったテキストをプロンプトとして入力するだけで済む。膨大なデータによる追加学習をしなくても、予測を促すプロンプトで、タスクに応じた予測が可能である。

 なおGPT-3のプロンプトプログラミングでは、「りんご => apple」のような少量の事例を与える必要がある。この部分についてはあらかじめ作成し、入力として与えておく必要がある。そして、最後に「チーズ =>」のように予測を促すテキストをプロンプトとして与えることで、予測する仕組みである。

図 GPT-3のプロンプトプログラミングと従来のファインチューニングの特徴
図 GPT-3のプロンプトプログラミングと従来のファインチューニングの特徴
GPT-3は質問応答や機械翻訳も可能
[画像のクリックで拡大表示]

 図の例であれば、2~3個の予測事例を正解として与えることで、全体を直接的に学習せずに済むのである。自然言語で書かれたプロンプトは、モデルの予測を操作するためのプログラムに相当する。従来のプログラミング言語によるコーディングとは異なる新しいパラダイムと言える。

 こうしたプロンプトは、GPT-3レベルの大規模なモデルになって初めて、高い予測性能を発揮することが論文で報告されている。近年研究が活発な領域である。適切なプロンプトの書き方、入力に与える少量の事例はどういったデータがよいのかなど、新しい問題も提起されている。今後まだまだ進化が期待されている。