全2828文字
PR

 米OpenAI(オープンAI)が2023年3月中旬にリリースした最新の巨大言語モデルGPT-4については、大きな「謎」がある。機械学習モデルの規模(パラメーター数)や学習させたデータ量が明らかにされていないのだ。

2020年発表の「スケーリング則」がここにきて話題に

 オープンAIが2022年11月にリリースしたAI(人工知能)チャットボットChatGPTの能力があまりに高いことから、日本でもここにきて巨大言語モデルのスケーリング則(Scaling Law)が改めて注目されている。

 スケーリング則とは、オープンAIが2020年10月に発表した論文「Scaling Laws for Autoregressive Generative Modeling」で示した法則だ。オープンAIは2020年6月に発表した巨大言語モデルGPT-3の経験に基づき、自己注意機構(SA、Self Attention)であるTransformerを多段に積み重ねるニューラルネットワーク構造を採用する機械学習モデルにおいては、学習に投入する計算リソースやモデルのサイズ、学習データ量が大きくなればなるほど性能が向上するというスケーリング則が働くとした。

 またオープンAIはGPT-3の論文「Language Models are Few-Shot Learners」で、その後のAI開発に大きな影響を与える「フューショットラーニング」という考え方も世に示した。

 GPT-3以前の言語モデル、例えば米Google(グーグル)が2018年に発表した3億4000万パラメーターのBERTは、大量の文章データを事前学習させた後に、数百例の教師データを追加するだけで新しいタスクに対応できる「ファインチューニング」が可能だった。

 それに対してBERTよりもはるかに巨大である、1750億パラメーターを備えるGPT-3の場合は、事前学習済みの機械学習モデルに対してわずか数十例の教師データを与えるだけで、新たな能力を追加可能だった。これがフューショットラーニングだ。

 スケーリング則とフューショットラーニングの考え方に従えば、機械学習モデルの規模や学習データ量をより巨大にすればするほど、AIの性能が向上し、万能性が高まると予測できる。そのためGPT-3の登場以降、機械学習モデルの巨大化競争は一気に加速した。最近、「日本がChatGPTに追い付くためには、国内に巨大なスーパーコンピューターが必要だ」といった議論が活気づいているのも、こうした背景による。

ChatGPTの成功要因はスケーリング則だけではない

 ところがChatGPTが成功した要因は、単なるスケーリング則だけではなかった。オープンAIは2022年1月に発表したChatGPTの兄弟モデルInstructGPTの論文「Training language models to follow instructions with human feedback」で、スケーリング則以外にもAIの性能向上をもたらす重要な要素があると指摘しているのだ。

 InstructGPTは、事前学習済みのGPT-3モデルに対して、教師あり学習によるファインチューニング(supervised fine-tuning、SFT)と、人間のフィードバックに基づく強化学習(reinforcement learning from human feedback、RLHF)を加えることによって開発した言語モデルである。