全1084文字
PR

 強化学習を代表するアルゴリズム、Q学習。このうち、強化学習の問題を最も単純化したものを、本特集では「L1-Q学習」と呼んできました。今回は実際にL1-Q学習の中身を説明しましょう。これまでと同様にScratchのゲームプログラム「砂漠でダイヤ集めゲーム」を活用します。

ScratchのL1-Q学習

 「砂漠でダイヤ集めゲーム」のトップページ画面右上の「中を見る」を押すと、プログラムを見ることができます。

「中を見る」を押してプログラムを見る
[画像のクリックで拡大表示]
「中を見る」を押してプログラムを見る

 Scratchサイトにサインインしなくても「中を見る」からプログラムを見たり変更したりできますが、変更したプログラムをサイトに保存することはできません。プログラムを保存したい場合は、あらかじめScratchのアカウントを作成しておき、サインインしてから「中を見る」を押してください。

 Scratchでは各スプライト(ネコのキャラクターなどプログラム内で使うオブジェクトのこと)にコードがひもづきます。L1-Q学習のコードは、「強化学習のプレイ開始」という緑色のボタンのスプライトに書かれています。

 以下に示したように、右下のスプライトリストから「強化学習のプレイ開始」を選んで左上の「コード」タブをクリックし、最後に虫眼鏡アイコンで大きさを調整してコード全体が見えるように表示してみましょう。

強化学習のプログラムを表示する
[画像のクリックで拡大表示]
強化学習のプログラムを表示する