
今や、人工知能でパターン認識(画像認識や音声認識)や異常検知など、さまざまなことが可能になっています。その中で、最も注目を集めているのが行動計画です。
行動計画とは、その名の通り、ある事象に関して今後どのような動きをすれば最も効率よく結果を出せるかについて人工知能が計画を立てることです。
行動計画そのものは、古くから研究されています。最も有名な事例は、ブロック崩しゲームのプレイヤーとして人工知能に操作させるというもの。この場合、「強化学習」という手法を使って人工知能に学習させます。古典的な手法ですが、単純に何百万回もプレイし、いろいろな操作をトライアル・アンド・エラーで試しながら、最もスコアが高い動かし方を見つけ出すというものです。
人工知能の進化を支える強化学習
何度かこのコラムでも紹介していますが、ここ2~3年における人工知能の進化は「強化学習」の進化と言っても過言ではありません。以前は、人間が学習するためのデータを準備する「教師あり学習」という手法が主流でしたが、それには何万件ものデータを集めて人工知能用に加工するという非常に大きな手間がかかりました。これに対し、強化学習は、実際に行った結果に対して評価値で学習をするので準備が不要というメリットがあります。
ただ、例えばブロック崩しゲームを人工知能に操作させる場合、現在の状況に合わせて、次に取るべき行動を人工知能で決めるわけですが、その「現在の状況」というものが無数にあるわけです。プレイヤーの位置ですら数千あり、ここにブロックの状況や玉の位置を考慮すると、考えられる状況の数は無数にあって、操作させることは現実的ではありません。
そこで、登場したのは「DQN(Deep Q Learning)」と呼ばれる手法です。
DQNとは
DQNとは今の状況を画像にし、それをディープラーニングで解析することで次の行動パターンを決める手法です。例えば、ブロック崩しゲームの場合、ゲーム画面をそのまま画像としてディープラーニングに入力します。つまり、簡単にいうと、画面の画像から大まかに、「こういう絵になっているときには、こういう行動をすべきだ」というルール作りをディープラーニングで行うということです。あのプロの囲碁棋士を破った人工知能「AlphaGo」でもDQNによる学習が導入されています。
本来であれば、DQNを使ったとしても強化学習には多くの計算が必要なので、一昔前では現実的ではありませんでした。しかし、GPUといった高性能に計算できるプロセッサーを活用するなどの進化もあり、現実となりました。