全4912文字
PR
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 強化学習は学習ベースの制御を実現し、囲碁のトップ棋士を破ったAlphaGoを代表的な事例として、ロボティクス、自動運転、金融、医療/ヘルスケア(処置の判断)など幅広い分野で成果を収めている。

著者の岡野原大輔氏
著者の岡野原大輔氏
[画像のクリックで拡大表示]

 一方で強化学習は学習中に環境との相互作用(試行錯誤)を必要とするため、その実現のハードルが高かった。本稿では、過去に取得した経験データのみを利用し、環境と新たな相互作用を必要とせずに強化学習を実現するオフライン強化学習について紹介する。

オンライン強化学習の問題点

 はじめに、強化学習について簡単に説明する。強化学習は、制御対象であるエージェントとその他の情報を司る環境から構成される。時刻毎にエージェントは現在の状態$s_t$を元に行動$a_t$を決定する。環境は現在の状態と選択された行動から次の状態$s_{t+1}$と報酬$r_{t+1}$を決定する。このプロセスを決められた回数や条件を満たすまで繰り返していく。