米OpenAI(オープンAI)は2023年3月14日(米国時間)、生成AI(人工知能)の最新版「GPT-4」を発表した。テキストと画像の入力に対応するマルチモーダルの巨大言語モデルになっており、画像の内容を説明する文章などが生成可能。「ChatGPT」の有償版のユーザーはGPT-4を即日利用可能になった。
マルチモーダル化したGPT-4は、画像に質問文を添えて入力すると、その画像の内容に基づく回答文などを生成できる。例えばオープンAIが同日公開したGPT-4のデモでは、ノートに手書きしたWebサイトの概要を撮影した画像ファイルに「これを基にしたカラフルなWebサイトのHTML/JavaScriptコードを書いて」といったテキストを添えて入力することで、Webサイトを構成するコードなどが生成された。
GPT-4を利用する企業もさっそく表れた。デンマークのBe My Eyes(ビーマイアイズ)は、マルチモーダル機能を使って、視覚障害者向けのアシスタントアプリケーション「Virtual Volunteer」を開発した。例えばスマートフォンのカメラで冷蔵庫の中を撮影すると、GPT-4が冷蔵庫の中身を説明するだけでなく、冷蔵庫の中にある材料から調理可能な料理などを教えてくれる。
より長い会話のやり取りが可能に
GPT-4では扱えるテキストの長さが2万5000単語(3万2768トークン)にまで増えた。従来よりも長い文章を生成可能になったのに加え、チャットにおける会話のやり取りも長くなり、ユーザーの意図をより深く踏まえたうえでの返答が可能になった。従来のGPT-3.5が扱えるテキストの長さは最大4097トークンだった。
言語モデルの性能は機械学習モデルのパラメーター数に左右されるが、オープンAIはGPT-4のパラメーター数を公開していない。その代わり、模擬試験の成績などがGPT-3.5に比べて向上したと説明している。
例えばGPT-4はGPT-3.5に比べて、米国司法試験の模擬試験を解かせた際の成績が大きく向上したという。GPT-3.5の成績は下位10%にとどまっていたのに対し、GPT-4の成績は上位10%で合格できたとする。
巨大言語モデルがでたらめな説明を出力するハルシネーション(幻覚)についても、GPT-3.5よりも大幅に減少し、内部での事実製評価テストの成績が40%向上したとしている。また犯罪につながる行為などに関する質問には答えないなど、安全性に関する性能も向上した。許可されていない内容について返答する率がGPT-3.5に比べて82%減少したという。