全1074文字
PR

 サーバーやネットワークの冗長化は情報システムの信頼性を高めるための常套手段だ。しかしシステム障害を防ぐはずの二重化が正常に機能しないという事態は多くの大規模システムで発生しうる。なぜフェイルオーバーに失敗するのか。有効な自衛手段はあるのか。日経コンピュータの過去の障害事例記事を基に、失敗の要因や対策を明らかにしていく。今回は、障害への備えを万全にするために実装していたフェイルオーバーの高機能化が、かえってシステム障害の被害を拡大してしまった事例を取り上げる。

 切り替え処理に失敗するだけでなく、フェイルオーバーの高機能化が被害を拡大することもある。富士フイルムでは2012年1月、150に上る社内システムで利用する大容量共有ストレージが故障。冗長化機能が働かなかったばかりか、データ救済機能が余計な処理を行い、業務データを失う事態に陥った。

 ストレージはきょう体内部のパーツを二重化することで信頼性を高めている。同社が使用していたストレージは大きく三つのコンポーネントで構成する。一つはストレージ全体の動作を制御する「コントローラー」で、プロセッサ上のファームウエアが故障時のフェイルオーバーも担う。

 もう一つは「小型スイッチ」。コントローラーとHDD間で経路制御を担う。コントローラーも小型スイッチも二重化してある。

 残りはデータを格納するHDDだ。1セットの小型スイッチ配下に16個のHDDが一つのグループを形成する。