全12587文字
PR

現在は第3次人工知能(AI)ブームといわれています。インターネットのニュースや新聞でAIの話題を目にしない日はないと言っていいほどです。このブームの立役者の1つが「強化学習」と呼ばれる技術です。本連載は、強化学習の基礎から最新の話題まで、分かりやすく解説します。読者の方に技術のエッセンスを直感的に理解してもらい、より専門的な教科書や論文を読みこなせるようになってもらうことが目標です。今回は、前回紹介したQ学習で最適解を導く動的計画法を解説していきます。(日経xTECH編集)

 前回は強化学習の代表例としてQ学習を紹介しました。Q学習を使うと、特定の環境に置かれた人工知能(エージェント)は、目的を実現するための適切な行動を効率的に学習できる上、ある数学的な条件の下では最適な行動原理、すなわち将来にわたって獲得し得る報酬の合計(収益)を最大にできる方策(Policy)を導けます。ここまでが前回の概要です。

 Q学習によって最適な方策を導くことができるのは、その前身となった「動的計画法(DP:Dynamic Programming)」と呼ばれる手法によるところが大きいです。動的計画法で培われた計算方法を異なる状況に応用した手法が、強化学習や、その代表例であるQ学習だといえます。

 今回は、まずQ学習で最適な方策を見つけるための前提条件を説明します。続いて、その条件下で最適解を導く標準的な手法の1つである動的計画法の概要を解説していきます。かなり入り組んだ説明になりますが、一つひとつの理屈は単純で、段階を追っていけばそれほど難しい話ではありません。どうぞ最後までお付き合いください。