PR

 2009年3月9日にダウンした気象データの配信システムが正常稼働までに17時間20分かかったのは、三つの障害が連続発生したからであることが分かった。ハードの二重化といった信頼性向上策を講じていたが、三つの障害が続いたことで、ダウンを回避できなかった。

 一つめの障害は富士通製UNIXサーバー(OSはSolaris)のCPUボードの故障だ。電文形式データ配信システムでは、2台のサーバーによるホットスタンバイ構成を採用している。このうち本番系サーバーが故障した。

 すぐに待機系が稼働するはずが動かなかった。引き継ぎ情報を格納した制御系ファイルが壊れていた。これが二つめの障害だ。制御系ファイルは富士通製の共用ディスク上にあり、本番系と待機系の双方からアクセスできる。サーバーの起動に不可欠だが壊れていたために引き継ぎ情報が読み込めなかった。

 「電文形式データ配信システム」を管理する気象業務支援センターとシステム構築を手がけた富士通は、制御系ファイルの壊れた部分の特定を進めた。ファイルを修正し、いったんは午後4時ごろにシステムを再稼働できると判断した。

 ここで三つめの障害が表面化する。本番系と待機系の2台のUNIXサーバーと、ネットワーク上の通信機器との接続を切り替える「回線切替器」(富士通製)が正常に動作せず、本番系が観測データなどを受信できなかった。結果的に、制御ファイルを復旧させてもシステムを稼働できなかった。

 二つめの障害である制御系ファイルの異常と、三つめの回線切替器の障害については、発生原因を特定できていない。気象業務支援センターと富士通が調査を続けている。