『日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
核融合反応を使った核融合炉による発電は、資源が豊富にあること、二酸化炭素を排出しないこと、そして安全性が高い(発生条件が厳しく、トラブルが起きれば核融合反応は消えること、また高レベル放射性廃棄物が出ない)ことから、クリーンなエネルギー源として注目されており、世界中の国家プロジェクトや企業で研究が進められている。

一方、核融合技術は技術的な困難が多いため、核分裂技術と同じくらい古くから研究されているものの、実用化は進んでいない。核融合炉は「地上の太陽」と比喩されるように、太陽などの恒星のエネルギー源である核融合反応を地上で再現するものであり、高温高圧によって発生する反応プラズマを封じ込め制御する必要がある。また、原子核を電磁気力(クーロン力)による反発に打ち勝って互いに近づけるには大量のエネルギーを注入しなければならない。反応プラズマを安定的にかつ効率的(制御目的エネルギー投入量<生成エネルギー量 となるよう)に制御するための技術が必要とされている。
米グーグル傘下の英DeepMind社およびスイスEPFLスイスプラズマセンターは2022年2月に公開された論文1)において、強化学習を用いて、トカマク型核融合実験炉の制御を行い、プラズマを制御でき、様々なタスクを実行することができたと発表した。強化学習によって、従来の制御システムに比べて様々な目標や条件を自由に設計し考慮できること、また異なる構成のプラントにもすぐ対応できる汎用性があることを示した。今回はこの背景や手法について紹介する。
トカマク型核融合炉はトーラス型のコイルで磁場を発生させ、その中心に高温高圧のプラズマを閉じ込め、そこで連続的に核融合を発生させるようにする。コイルに流す電流を調整し、それらが生み出す磁場によってプラズマの状態を制御する。プラズマはその圧力勾配と磁場とがつりあう状態をとるが、非常に複雑なダイナミクスを形成する。このプラズマの制御を強化学習によって実現する。強化学習はエージェントが与えられた観測を元に行動を逐次的に決定し、将来的にもらえる累積報酬を最大化することが目標であった。
今回の問題設定は10kHz周期、つまり100μs毎に1ステップ進むとした。また、実際に100μsのうち50μsは他のデータ処理などで使われるため、エージェントは観測を受けとってから50μs以内に行動を選択する制約がある。観測として、34個の磁束センサ、38個の局所的磁場センサ、19個の制御コイル電流センサを利用する。また、行動は制御コイルの目標電圧を決定する。リアルタイム制御システムは、強化学習が選択した目標電圧を達成するように制御する。報酬は通常の強化学習と同様に、1つのスカラー値を使って表す。プラズマ制御の場合、タスク毎に様々な目標や制約がある。例えば、目標電流値、プラズマの形状(伸長、形を特徴づけるX-Point)などである。これら複数の目標や制約を次のようにして1つのスカラー値にまとめあげる。
まず、各目標について、実際の観測値と目標値との誤差をとり、それらの誤差が[0,1]の範囲に収まるように非線形変換を行う。次にこれら複数の誤差を非線形な重み付き和(Smooth Maxなど)を使って、まとめあげる。また、ベクトルも成分毎の誤差を計算した後にそれらを非線形に重み付けする。これら、まとめあげる処理のパラメータは学習前に人手で設定し与える。このように複数の誤差を階層的に集約していき1つの報酬としてのスカラー値に変換する。
リアルタイム制御向けの強化学習
今回の問題設定で、エージェントは50μsで観測から行動を選択する必要があり、計算リソース制限が大きい。この問題に対応するため強化学習手法としてはActor Critic法を採用した。Actor Critic法は状態から行動を決定するActor(方策)と、行動価値(与えられた状態で与えられた行動を選択した時の将来累積報酬)を推定するCriticから構成される。ActorはCriticが提供する行動価値を最大化するような行動を選択できるように学習し、Criticは現在得られた経験から正確な行動価値を推定できるよう学習する。
実際に使うのはActorだけであるが、Criticは学習に不可欠な要素である。このCriticは実機で使わないため、実際にはリアルタイムで観測できない情報や、計算量が大きいモデルを使っても良い。今回CriticはLSTMで時系列を考慮した後にMLPを使って価値推定するモデルを利用した。実験での考察ではLSTM利用が重要であり、過去の限られた情報からモデルを適応させる効果があると考えられる。
その一方でActorは高速に動かせるような制約で設計した。Actorは入力を線形変換後、tanh活性化関数と層正規化を使って変換した後に、3層のELU活性化関数を使ったMLPで変換する。各層のユニット数は256。そしてガウシアンの平均と分散パラメータを出力する。LSTMを使うCriticとは違って過去の観測には依存しない。実際に利用する際には平均をそのまま制御値として利用する。この分散による確率的行動選択は、強化学習の探索目的で使われる。このActorのネットワークはCPUの2次キャッシュに全て載り、実行時間制約を達成できる。このようなActorとCriticを非対称に、Actorを軽く、Criticを重くリッチにするアプローチは現実世界の問題を強化学習で解く際に広く使われている。
シミュレーションによる学習
この学習はシミュレーションを使って行われた。シミュレーションは精度面から強化学習の問題設定における10kHzではなく50kHzで実行される。そのため、エージェントは5ステップおきに行動を決定し、エージェントが選んだ行動はシミュレータでは5ステップ連続して選択するようにする。
このシミュレーションで学習したモデルを実機で動かす際は、実機向けの調整をしない、いわゆるZero-shot転移を行っている。一般にシミュレーションと実機にはギャップ(Sim2Realギャップ)があり、こうしたZero-shot転移は難しい。このギャップを克服するため、シミュレーション上で学習する際に、シミュレーションに関する様々なパラメータをランダムに変更しておくドメイン乱択化が行われた。また、シミュレーションのセンサには実機が遭遇するような観測遅れやノイズなどの効果も加えている。しかし、シミュレーションでは全てのケースは網羅できず、また実機ではセンサが正常に動かないケースがあることもわかっている。こうしたケースに遭遇した場合は、強化学習による制御から従来の制御に切り替えるようにしている。
実験では、スイスプラズマセンターに設置されている半径0.88mの核融合実験炉を使って行われた。タスクでは、安定的に制御できるのか、位置や形状を制御できるのかといったテストが行われた。全ての実験で、強化学習は狙った状態を維持できるよう達成でき、元の状態に戻すことができた。また、報酬を変えるだけで様々なタスクをこなすことができた。実験ではプラズマ形状の伸長、中性粒子ビームで追加の熱を加えH-modeとよばれる別の状態になった時の制御、“negative triangularity”、“snowflake”とよばれる現在研究で注目されている状態における制御も可能なことが示された。
現実世界の制御を強化学習で実現する
強化学習を使った核融合炉の制御の可能性が示されたことは、核融合炉の実現に大きく貢献できると思われる。まだ核融合炉の実用化には多くの障壁が残っているが、異なる構成や目標における制御をすぐに実現できる点は今後の開発を大きく加速させるとみられる。今回はシミュレーションを使っていたが、シミュレーションが無い場合もモデルベースの強化学習が発展し実用段階になってきている。例えば、モデルベースの強化学習MuZeroを使ったYouTubeの動画圧縮レート調整などが登場している2)。今後、現実世界の問題への強化学習の利用は加速していくと思われる。
2)A. Mandhane et al., “MuZero with Self-competition for Rate Control in VP9 Video Compression,” https://arxiv.org/abs/2202.06626
Preferred Networks 代表取締役 最高研究責任者
