全3000文字
PR

気象庁の気象データの更新が約8時間にわたって停止した。原因はサーバーを接続するコアスイッチの故障だった。故障したまま動作を続け、異常なトラフィックが発生。さらに復旧時の作業ミスで、スパコンの一部処理に遅延が生じた。作業用マニュアルの不備がミスを誘発し、被害を拡大させた。

 新型コロナウイルスの感染が都市圏で広がり始めた2020年3月24日の午前4時20分ごろ、気象庁のサイトに掲載されている気象データが突如、一部欠落したり更新が止まったりした。気象衛星「ひまわり8号」が撮影した日本近海の衛星画像や全国の気象情報などだ。

 同日の午前6時37分ごろには影響がさらに広がった。大気の状況など気象予報に用いる数値予測データの更新にも遅れが出た。数値予測データは衛星画像など観測データの処理とは別に運用するスーパーコンピューターで演算している。障害の影響がスパコンに波及し、一部処理に遅延が生じてしまったのだ。復旧作業の末、最終的に障害が解消したのは約8時間後の正午ごろだった。

データの外部提供先に影響

 3月24日は全国的に好天が続いた3連休明けの2日後で、幸いにも全国的に穏やかな天気だった。予報を更新するほどの気象の変化はなく、気象庁によれば日々の予報業務に支障は生じなかった。気象警報・注意報、地震・津波・火山に関する情報の発表にも特に影響はなかったという。

 とはいえ、衛星画像は気象庁が業務で使うだけでなく、テレビ局などの報道機関や民間気象会社、公的機関などの契約先にも配信している。欠落したり更新が止まったりしたデータは赤外線撮影による雲の衛星画像、黄砂領域を推定する衛星画像、観測を基に1キロメートルメッシュで推計した全国の気象分布など13種類あった。

 一方、スパコンのほうでは、時間ごとの大気の状態を解析する「毎時体積解析」、集中豪雨や台風など災害につながる大気現象の解析に向くとされる「メソ数値予報モデル」、気象を踏まえて潮位を予測する「高潮モデル」といった予測データの配信に遅れが出た。気象庁は「利用者の皆さまにご迷惑をおかけしましたことをお詫び申し上げます」と障害報告で謝罪した。

トラフィックが異常に増加

 障害は東京都清瀬市にある気象衛星センターで発生した。同センターには気象衛星の通信局のほか、衛星画像や全国の観測データを処理する「地上処理システム」、予測データを演算するスパコンなどが置かれている。

 午前4時20分ごろ、最初に停止したのが地上処理システムだ。原因は同システムのサーバー群を収容したネットワークの障害だった。トラフィックの異常な増加を知らせるアラートが出ていた。

 夜勤で現場にいたセンター所属と気象庁予報部情報通信課システム運用室の職員らは直ちに原因特定と復旧の作業に着手した。停止した地上処理システムは気象庁の大阪管区気象台にもバックアップシステムを置いてある。午前5時30分ごろには衛星画像など一部の処理を大阪管区での処理に切り替え、データ更新を再開した。

 だが、トラフィックが異常に増えた原因はネットワーク機器のログなどを調べても分からなかった。

 地上処理システムは3種類のサーバー群で構成する。日々の観測データを処理するサブシステムと観測データをスパコンに投入する前処理用のサブシステム、気象情報の用途を広げる開発環境を置いたサブシステムだ。各サブシステムは別々のネットワークセグメントに置き、コアスイッチ(レイヤー3スイッチ)を介して処理データを交換、参照する。コアスイッチはそれぞれ2台の冗長構成で計6台ある。

図 気象庁で発生したシステム障害の概要
図 気象庁で発生したシステム障害の概要
ネットワークスイッチの故障が複数のシステムに連鎖
[画像のクリックで拡大表示]

 トラフィックが異常に増加する要因としては、コアスイッチの故障やケーブルの誤った接続などが考えられる。例えばネットワーク機器をループ状に接続すると、ブロードキャストパケットがネットワークを埋め尽くしてしまうほど大量に流れる「ブロードキャストストーム」という状態に陥ることがある。何らかの理由でコアスイッチの冗長構成が正しく機能しなくなり、この現象が生じた可能性が疑われた。

 そこで職員はコアスイッチの電源を1台ずつ落とす、またはケーブルを1本ずつ切り離しながらトラフィックの変化を確認することで障害の原因を切り分けることにした。