過去3カ月間ほどIT業界の話題は「チャット」一色だったが、これからしばらくは「マルチモーダル」一色になるだろう。米OpenAI(オープンAI)が2023年3月14日(米国時間)、テキストに加えて画像の意味も理解できるマルチモーダルな基盤モデル「GPT-4」を発表したからだ。
マルチモーダルとは、複数の種類や形式のデータに対応する、という意味。画像も扱えるGPT-4が一般公開されるのはまだ先のことだが、論文やデモで示されたその威力はすさまじい。例えばGPT-4は、文章に加えて複雑な数式や図などが含まれる大学レベルの物理のテストを解けるようになったという。
オープンAIがGPT-4の論文で示した例では、GPT-4はフランスのエリート養成校、エコール・ポリテクニーク(理工科学校)の物理テストが解けたとする。
わずか数年前、日本の「ロボットは東大に入れるか」(東ロボ)プロジェクトでも、図・表・イラストが含まれる物理のテストをAI(人工知能)が解くのは最難関とされていた。
オープンAIはGPT-4が、米国の司法試験にも合格できるレベルとする。画像も扱えるGPT-4に、東京大学の入試問題を解かせたらどうなるのか。試せるようになるのが楽しみだ。
オープンAIは2023年3月14日から、GPT-4の有償提供を開始した。同日には米Google(グーグル)も、兄弟会社である英DeepMind(ディープマインド)が開発したマルチモーダルの基盤モデルをGoogle Cloudで利用可能にすると発表している。
基盤モデルはアプリの新「プラットフォーム」
恐ろしいほどの能力を備えたマルチモーダルの基盤モデルが世に解き放たれることで、産業や社会にどのような変化が起こり得るのか。筆者が全てを予測するのは到底不可能だが、一つだけ確実に言えることがある。それはマルチモーダルの基盤モデルが全く新しい種類のアプリケーションを生み出すプラットフォームになり、それに伴ってアプリの世代交代が起きるということだ。
15年前、全く新しいUX(ユーザー体験)を備えたスマートフォンというプラットフォームが登場することで、アプリの世代は一新した。全く新しいアプリがスマホ上に次々と登場し、パソコン用のアプリは進化が遅々として進まなくなった。それと同じレベルの世代交代が、再び起きると筆者は思っている。
GPT-4のようなマルチモーダルな基盤モデルを活用することで、アプリはどう変化するのか。
例えばデンマークのBe My Eyes(ビーマイアイズ)はGPT-4を使って、視覚障害者向けのアシスタントアプリ「Virtual Volunteer」を開発した。ユーザーがスマートフォンのカメラで冷蔵庫の中を撮影すると、GPT-4が冷蔵庫の中身を説明するだけでなく、冷蔵庫の中にある材料から調理可能な料理などを教えてくれるのだという。