全6534文字
PR

現在は第3次人工知能(AI)ブームといわれている。このブームの立役者の1つが「強化学習」。本連載は、強化学習の基礎から最新の話題まで、分かりやすく解説する。読者の方に技術のエッセンスを直感的に理解してもらい、より専門的な教科書や論文を読みこなせるようになってもらうことが目標である。今回は、産業界で強化学習といえば大抵はこの方式といえるQ学習を説明する。

 今回は、強化学習の実態をつかんでもらうために、具体的な学習の手順を紹介します。強化学習の中でも最もよく使われる手法といえる「Q学習(Q-learning)」を中心に説明します。Q学習は特定の条件を満たせば最適な行動を導ける(=最適方策に収束する)ことが知られている方法です。計算量も比較的抑えられるので、産業界で強化学習といえば大抵はこの方式のことを指します。米Google(グーグル)傘下の英DeepMind(ディープマインド)が最初に開発した深層強化学習技術「Deep Q-Network(DQN)」1)も、Q学習を基にしたものです。

 まず、強化学習が取り組む問題とはどのようなものかをはっきりさせておきましょう。 前回紹介したように、強化学習は囲碁や将棋などのゲーム、自動車やロボットの制御、最短経路の探索といった、計画型の問題を解くための手法です。こうした問題は、ある環境の中に置かれたAI(強化学習では「エージェント」と呼びます)が、与えられたゴールを達成するための最適な行動を探す問題といえます。例えばゲームの場合は特定のルールが支配する対戦で相手に勝つ手段を、ロボットの制御であれば様々な制約の下で目標地点に達する最適な軌道を求める、といった具合です。

 こうした問題を解く上で、強化学習ではエージェントは自分が置かれた環境について何も知らない状態から学習を始めると仮定します(図1)。エージェントは自ら環境に働きかけて、その反応を見ながら、何が最適な行動かを探っていきます。このとき、良い行動とは何なのかを判断する手がかりが、環境から得られる「報酬」です。試行錯誤を繰り返す中から、最大の報酬を得られる行動を見つける手法が強化学習なのです注1)。なお、以下では説明を簡単にするために、エージェントを取り巻く環境の状態や、エージェントが取り得る行動が離散的である場合を取り上げます注2)

図1 環境について無知な状態から学習
図1 環境について無知な状態から学習
強化学習は環境の中に置かれたAI(エージェント)が、環境について何も知らない状態からゴールを達成する方法を学んでいく方法である。環境に行動で働きかけ、そのときに得られる報酬や環境の変化を観測し、試行錯誤を繰り返して最適な手段を探していく。
[画像のクリックで拡大表示]

注1)逆にいえば、強化学習を利用する開発者は、ゴールを達成する方法を短時間で学習させるためには、エージェントにどのような報酬を与えたら良いかをよく考える必要があります。この点は、連載の後半で触れる「逆強化学習」などで重要になってきます。

注2)今回は触れませんが、強化学習が連続値で表される環境の状態や行動を扱えないわけではないので、その点はご注意を。

この記事は有料会員限定です

「日経エレクトロニクス」定期購読者もログインしてお読みいただけます。

日経クロステック有料会員になると…

専門雑誌8誌の記事が読み放題
注目テーマのデジタルムックが読める
雑誌PDFを月100pダウンロード

日経電子版セット今なら2カ月無料