全3673文字
PR
4/1朝まで
どなたでも有料記事が読み放題「無料開放デー」開催中!
この記事は日経Robotics 有料購読者向けの過去記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 2016年、グーグルDeepMind社が開発したAlphaGoが囲碁トップ棋士であるイ・セドル(Lee Sedol氏)氏に4-1で勝利し話題となった。囲碁は途中の盤面種類数が非常に多く、盤面の評価には感覚や大局的な視点が必要でありコンピュータには不得意とされてきた。AlphaGoはこうした見方を打ち破り、純粋にデータとゲームのルールだけからこのような能力を獲得できることを示した。

 一方で、コンピュータが人間のトッププレーヤーに及ばないゲームはまだ多く存在している。その代表的なゲームの1つがリアルタイム戦略(Real-Time Strategy:RTS)ゲームである「StarCraft II(スタークラフト2)」だ。

 スタークラフト2は他のリアルタイム戦略ゲームと同様に、複数のユニットにリアルタイムに指示を出しゲームを進めていく。労働者ユニットは環境上に散らばった資材を収集し、新しい建物やテクノロジーの開発を進めていく。ゲームに勝利するためにはそれらの建物やテクノロジーを使って、作成した戦闘ユニットを操り相手の陣地を破壊することが目標となる。

著者の岡野原大輔氏
著者の岡野原大輔氏

 こうしたリアルタイム戦略ゲームでは、大局的な戦略に基づいて経済や戦闘を管理するマクロ操作と各ユニットを細かく操作して局地的な戦いに勝利するミクロ操作のバランスが重要となる。前者は戦略シミュレーションゲーム(例えば信長の野望など)に近く、後者はアクションゲームに近い要素が含まれる。

 2019年1月、グーグルDeepMind社はこのスタークラフト2において、同社が開発したAlphaStarが最強のゲームプレーヤーの1人であるMaNa(Grzegorz Komincz)氏に勝利したと発表した1)。このスタークラフト2をコンピュータで解かせる場合の問題は次の3つである。

図1 AlphaStarの対戦の様子を見守るDeepMind社の幹部
図1 AlphaStarの対戦の様子を見守るDeepMind社の幹部
(写真:DeepMind社)
[画像のクリックで拡大表示]

 1つ目にゲームの情報が全て得られない不完全情報ゲームであることである。味方ユニットの周辺しか視野が得られず、相手が何をしているか、行ってみなければわからない。例えば、時には相手陣地に入って情報を得る斥候が必要となる。観測できていない部分については様々な可能性を想定して行動しなければならない。

 2つ目に長期計画が必要なことである。1つのゲームは1時間近くに及ぶ場合もあり、状況に応じて戦略を柔軟に変えていく必要がある。ユニット間にはじゃんけんのような強弱関係があり、駆け引きをしながらユニットを生産していく必要がある。状況に応じて、計画を常に修正し続けることが必要となる。さらに、ある時点で行った行動が最終的にどのような効果をもたらすかはかなり時間がたたないと分からず、信用割当問題を難しくする。

 3つ目に行動空間が非常に大きいという点である。ゲーム中のユニット数や建物数は最大数百にものぼり、それぞれに命令できる操作種類数も多い。1分あたりの操作数はAlphaStarの場合、280にも上る(ちなみに、MaNa氏の1分あたりの操作回数は390回であった)。

(写真:DeepMind社)
(写真:DeepMind社)

 このような難しい点があるにもかかわらずAlphaStarはMaNa氏に5-0で勝利した。MaNa氏は「想像していなかった人間らしいプレースタイルに感動した。自分がどれだけ相手にミスさせるようにプレーし、その反応を利用していたのかに気付かされた。(今回の対戦は)このゲームの新しい方向を示してくれた」と感想を述べている。

 それでは、AlphaStarがどのように作られたのかについてみてみよう。AlphaStarはニューラルネットワークによって行動を生成する。このニューラルネットワークは入力として各ゲームユニットとその状態からなるリストを受け取り、行動の列を出力する(ただし、MaNa氏との対戦後に、人のプレーと同様に画面そのものを入力とし、画面範囲内のユニットだけに指示できるバージョンを作成している)。

 ニューラルネットワークはTransformer(本欄の2018年10月号で紹介)を胴体とし、LSTM、ポインタネットワークが付随した自己回帰モデルによる方策ヘッド、複数エージェント間で共有するベースラインを出力する2)。ポインタネットワークは注意機構を使って特定の入力をそのまま読み込む機構である。ベースラインは方策勾配で、採用した行動が平均的な動作に比べて良かったかどうかを評価するために必要であり、学習の成功率、速度に大きく寄与する。

最初は人のプレイからの教師あり学習、次はリーグ戦で強化学習

 AlphaStarはAlphaGoと同様に最初は人のプレーヤーからそれを真似るように教師あり学習を行った。このように学習されたモデルの強さは人のプレーヤーの“ゴールドレベル"(6段階のレベルの上から4番目)程度であった。

 次にこのようにある程度強くなったエージェント同士を対戦させて強化学習をさせていく。ここでは単に1つの強いエージェントを作るのではなく多様性のあるエージェント群を作るようにした。

 具体的には仮想リーグ戦を用意し、そこでそれぞれのエージェントに異なる目標や内発的動機を与えて、多様性のあるエージェント群を育てていった。例えば、あるエージェントにはライバルを設定し、それに勝つことを目標とさせたり、あるエージェントは他のエージェント群全体に対する勝率に加えて特定のユニットを多く生産することを目標とした。これにより、エージェントが様々なスキルを身に着けつつ、それらが身に着けるスキルの弱点を他のエージェントが見つけ、それに対応するように成長していくことができている。

 この多様性のあるエージェント群は学習の基本問題である破滅的忘却を防ぐことにも役立っている。学習で難しいのが、新しいスキルを身に着けることによって昔身に着けた能力を忘れてしまうという破滅的忘却が起きることである。エージェント群の存在によって、多様なスキルをプールしておくことができる。例えば、エージェントがある弱点を克服したのを忘れたとしても、他のエージェントが再度その弱点を突いてくれることで再度そのスキルを身に着けることができる。

 このような多様性のある環境は適度なランダムネスを与えることで学習が局所最適解に陥ることも防いでくれる。ハイパーパラメータ探索やネットワーク探索でも使われている技術をエージェントの学習に適用したと考えられる。学習の過程では、トッププレーヤーが実際使っている様々な戦術が発見された。また、ある戦術が発見され、すぐにそれへの対抗策を他のエージェントが発見することがみられた。

 この仮想リーグはグーグルが開発した機械学習アクセラレータチップ「TPU v3」を用いて14日間の学習を行い、各エージェント当たり16個のTPUが使われた。ゲームは並列に実行され、この期間で各エージェントは200年間に相当するプレーを経験する。どの程度の数のエージェント(種類)を学習したかについてDeepMind社からの発表には明確な記述はないが、グラフからは600程度のエージェントが学習されたとみられる(この場合、利用したTPUは5000~10000個程度となる)。最終的に用いるエージェントはナッシュ平均化3)と呼ばれる操作を適用し、それらのエージェントをそれらの相対的な強さによって重み付けした試行環境上で最も強いエージェントを1つ学習させる。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 AlphaStarがこれほど強くなった理由としては最新のモデルや学習手法の利用もあるが、最も大きな貢献はリーグの存在であると考えられる。多数の異なる特徴を備えたエージェント同士を戦わせることで、弱点を見出しそれを潰すとともに、順当に成長してきたエージェントが想像もできないような全く新しいスキルを獲得できる可能性を増やすことができる。今後はモデルや学習手法だけでなく、学習環境の進展が重要になってくると考えられる。

1)"AlphaStar: Mastering the Real-Time Strategy Game StarCraft II", https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/
2)J. N. Foerster, et. al.,“Counterfactual Multi-Agent Policy Gradients,” AAAI 2018. https://arxiv.org/abs/1705.08926
3)D. Balduzzi, et al.“Re-evaluating Evaluation,” NuerIPS 2018. https://arxiv.org/abs/1806.02643
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 取締役副社長
岡野原 大輔(おかのはら・だいすけ) 2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。