前回はまとめとして現実の課題に適用する際の心構えと考え方のポイントを解説したが、今回はそれらを使った事例や参考図書を紹介しよう。

プロ棋士を超えた「AlphaGO」

 以上を踏まえ、機械学習の適用事例について考えていく。第1は、機械学習の有用性を一般にまで知らしめた、英ディープマインド(DeepMind)が開発した“AlphaGO”である。2016年に世界のトッププロ棋士である韓国のイ・セドル氏と対戦し、4勝1敗で勝利した。Natureに掲載されたAlphaGOについての論文は20人が共著者となっており1)、さまざまな分野の技術者の協力によるものであることが分かる。

 技術的には13層の畳み込みニューラルネットワーク(CNN : Convolutional Neural Network)を使い、約3000万の局面データで教師あり学習をしている。この場合の教師あり学習は、その局面での実際の着手を正解として与える。つまり、局面ごとの正解手の学習である。ここで盤面を表現するのに、19×19の画素を持つ画像のように畳み込みニューラルネットワークでモデル化している点が斬新だ。

 また、自己対局による予測モデルの改良も技術的なポイントである。システム同士を対戦させ、勝敗の情報を基にパラメーターを調整する強化学習である。さらに、勝率を計算する局面評価モデルの学習もしている。次の一手の教師あり学習を多層のニューラルネットワークで処理し、その局面で予測される着手の確率を計算するモデルを学習する。これを基にシステム同士の対局で強化学習を進め、強くなっていくのである。

 強化学習はかなり確立された技術ではあるが、このような畳み込みニューラルネットワークと組み合わせて、大規模な計算機資源を使って大量に学習を繰り返すことによって、驚くべき高機能を発揮し得ることを示した。また、1200個のCPUと176個のGPU(Graphics Processing Unit)*1を使ったという、力技ともいえる強力な計算機資源の投入も注目すべき点といえる。

 これまでのシステムは、論理的な判断を行い、全体を感覚的に把握することは苦手だとされてきた。しかし、序盤でプロ棋士が理解できない手を見せるなど、むしろ感覚的な側面を見せた。機械学習の新たな可能性を感じさせる。

 一方、対局はできるが、打った手の解説はできない。この点は深層学習の弱点としてよく指摘されるが、改善されるだろう。技術的には、学習の結果として得られたネットワークの解釈や、判断の根拠がどこにあるかを示す方向に研究が展開している。

この先は有料会員の登録が必要です。「日経SYSTEMS」定期購読者もログインしてお読みいただけます。有料会員(月額プラン)は初月無料!

日経クロステック ラーニング/日経クロステックには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら