全1965文字

 トップ棋士に勝った囲碁AI「AlphaGo」の開発者として有名なデミス・ハサビスCEO(最高経営責任者)が率いる英ディープマインド(DeepMind)。同社がまたAIを大きく進歩させた。2019年11月に論文を発表し、多様なゲームに対応できるAI「MuZero」を開発したことを明らかにしたのだ。いわば「万能ゲームAI」である。

 MuZeroという名前から、AlphaGoの進化版である「AlphaGo Zero」「AlphaZero」のような、囲碁や将棋、チェスといったボードゲームに特化したAIをイメージするかもしれない。確かに論文はAlphaZeroを改良する文脈で書かれているが、実はディープマインドが開発した別系統のビデオゲーム向けAIエンジンである「DQN」や「R2D2」の機能を包含しているという。つまりボードゲームだけでなく、パックマンやスペースインベーダーといったビデオゲームもこなせる。

 これは驚くべきことだ。従来、同時に成り立たせるのは難しいと考えられていた複数のAIを1つに統合した。しかも従来の個別のAIにゲームで圧勝するというすさまじい成果を上げているという。

英ディープマインドが自社サイトに載せたMuZeroに関する発表
英ディープマインドが自社サイトに載せたMuZeroに関する発表
(出所:英ディープマインド)
[画像のクリックで拡大表示]

 これまでビデオゲームのような視覚的に複雑な分野では、環境をモデリングすることが困難なため、モデルフリーのアプローチを取らざるを得なかった。現実世界の課題も同じだ。大抵のケースでモデリングが困難であり、モデルフリーの手法を選ばざるを得ないことがほとんどである。

 囲碁や将棋、チェスの分野ではモデルを与えることで非常に高いパフォーマンスを実現している。MuZeroは強化学習の過程でモデル自体も学習可能にすることにより、AlphaGoに代表されるモデルベースのアプローチで得た豊かな果実を、モデルフリーのビデオゲーム領域に持ち込めるようにしたといえる。これにより、現実世界の課題に対するAI技術の適用にさらに近づいた。2013年のDQN、2015年のAlphaGoからわずか数年でここまで到達したことは感慨深い。

最新技術を組み合わせて適用する嗅覚

 ディープマインドは、どのようにしてこうした成果を上げ続けてきたのだろうか。同社の論文を読むと、革新的な要素技術はそれほど無いことに気がつくだろう。それよりも既存技術の組み合わせや適用領域の選択にこそ、同社の強みがあるように思える。

 例えば強化学習をビデオゲームの領域に適用するというアイデアがビデオゲームAIのDQNの実現につながり、CNNという画像認識技術を囲碁の領域に適用するというアイデアがAlphaGoにつながっている。もちろんDQNやAlphaGoを実現するには様々な新しい技術を開発しなければならないし、ディープマインドが非常に高い技術力を持っていることに異論はない。しかしこれまでディープマインドが成果を上げてこられた一番の理由は、最新技術をどう組み合わせれば現実世界の課題に効くのかを見極めるセンス、嗅覚にあるのだと思う。