全1084文字
強化学習を代表するアルゴリズム、Q学習。このうち、強化学習の問題を最も単純化したものを、本特集では「L1-Q学習」と呼んできました。今回は実際にL1-Q学習の中身を説明しましょう。これまでと同様にScratchのゲームプログラム「砂漠でダイヤ集めゲーム」を活用します。
関連サイト:Scratchサイトの「砂漠でダイヤ集めゲーム」
ScratchのL1-Q学習
「砂漠でダイヤ集めゲーム」のトップページ画面右上の「中を見る」を押すと、プログラムを見ることができます。
Scratchサイトにサインインしなくても「中を見る」からプログラムを見たり変更したりできますが、変更したプログラムをサイトに保存することはできません。プログラムを保存したい場合は、あらかじめScratchのアカウントを作成しておき、サインインしてから「中を見る」を押してください。
Scratchでは各スプライト(ネコのキャラクターなどプログラム内で使うオブジェクトのこと)にコードがひもづきます。L1-Q学習のコードは、「強化学習のプレイ開始」という緑色のボタンのスプライトに書かれています。
以下に示したように、右下のスプライトリストから「強化学習のプレイ開始」を選んで左上の「コード」タブをクリックし、最後に虫眼鏡アイコンで大きさを調整してコード全体が見えるように表示してみましょう。