全3041文字
PR

 将棋や囲碁、テレビゲームなどをプレイしたり、操縦が難しいロボットを操縦したりするAIの開発に使われる「強化学習」。強化学習を代表するアルゴリズムにQ学習があります。本特集では、強化学習の問題を最も単純化したものに限定した場合でのQ学習(ここでは「L1-Q学習」と呼ぶことにします)をScratchで説明します。

 今回からはL1-Q学習の仕組みについて、Scratchで作られたゲーム「砂漠でダイヤ集めゲーム」を題材に、具体的に見ていきましょう。

L1-Q学習のアルゴリズム

 L1-Q学習のアルゴリズムの目的は、「砂漠でダイヤ集めゲーム」の目的と同様に「限られた回数の中で、できるだけ報酬を集めること」と考えます。

 L1-Q学習のアルゴリズムを一言で言えば、「左右でどれくらい報酬がもらえるかを毎回予測し、予測の多い方を選ぶ」という方法です。まず「予測をする」ということを理解するために「期待値」を説明します。

期待値

 期待値とは、簡単に言えばギャンブルでもらえる儲けの平均値です。

期待値とその求め方
[画像のクリックで拡大表示]
期待値とその求め方

 ギャンブル以外でも未来の予測の平均値を考えるときであれば、期待値という言葉は使えます。

 例えば、コインを1回投げて表だったら200円をもらえて、裏だったら100円をもらえるギャンブルがあるとします。このギャンブルでどれくらい儲かるかを知るために、儲けの平均値である期待値を考えます。直感的に、期待値は200円と100円の中間の金額である150円だと予想ができると思います。

 式で計算するには、

[画像のクリックで拡大表示]

 となります。実際にこのギャンブルを何度もやって、儲けた金額の平均値を計算すると、この期待値に近い値になるはずです。しかし、コインの確率が分かっていれば、実際にギャンブルをしなくても、正確な平均値が計算できるということです。

 では、コインがインチキで表が出る確率が0.2しかなかったら、期待値はいくつになるでしょうか。裏が出る確率は0.8になることに注意して、

[画像のクリックで拡大表示]

 となります。このインチキコインのギャンブルでは平均して120円しかもらえないということが分かります。期待値の意味は、つかめたでしょうか。