全4134文字
PR

 米Facebook(フェイスブック)で2021年10月初めに、大規模なシステム障害が発生した。この障害に関する報告書を読んで感心したことがある。同社は普段からシステム障害に対応する訓練を繰り返しており、それが今回も役立ったというのだ。一方、みずほ銀行で頻発したシステム障害に目を転ずると、訓練を怠ったことがトラブルを深刻化させていた。両社の事例は多くの企業にとって教訓となるだろう。

 まずはフェイスブックで2021年10月4日(米国時間)に発生したシステム障害を振り返ろう。FacebookやInstagram、WhatsAppなど同社の全サービスが7時間以上も停止するという大規模なトラブルだった。同社が世界中に配置するデータセンターやネットワーク接続設備(POP、Point of Presence)を結ぶ自前のバックボーンネットワークでルーターの設定を変更したところ、誤ってバックボーンネットワークが全面ダウンしたことが原因だった。

 バックボーンネットワークの容量を確認しようとして実行したコマンドに誤りがあった。同社はこうした誤りを防ぐためにコマンドを監査するシステムも構築していたが、監査システムにバグがあったため、誤ったコマンドの実行を防げなかった。バックボーンネットワークが全面ダウンすることで、フェイスブックのデータセンター群がインターネットから切り離されてしまった。

リモートからの復旧が不可能に

 システム復旧作業は困難を極めた。フェイスブック社内ではネットワークが全面ダウンしてしまったため、社内メールやチャットを使って同僚と連絡したり、オフィスや自宅からネットワーク経由でルーターにアクセスして修正コマンドを実行したりすることすら不可能になったからだ。

 システムを復旧するには、フェイスブックの本社近くにあるデータセンターにエンジニアが出向いて、ルーターや管理サーバーに直接ログオンして設定を変更する必要があったのだが、これも大変だった。データセンターには様々な物理的セキュリティー対策が施されているため、それらを突破するのに長い時間を要した。

 しかも今回のシステム障害は、バックボーンネットワークを復旧させればそれで解決というものでもなかった。同社のデータセンターはインターネットから切り離されることで、サーバーなどの負荷が急激に減少していた。データセンターの消費電力で見ると、数十メガワット単位で減少していたという。もしデータセンターを急いでオンラインにして、数十メガワットもの消費電力を一気に増やすと、データセンターの電力システムからサーバーのキャッシュメモリーに至るまで、あらゆる部品が壊れてしまう恐れがあった。データセンターの負荷は慎重に復旧させていく必要があった。

 こうした難しいシステム復旧を進める上で役に立ったのが、日ごろから行ってきたシステム障害対応訓練を通じて得た経験だったという。システム障害対応訓練は社内で「Storm Drills」(嵐の訓練)と呼ぶが、システム単位やデータセンター単位、地域単位で起こり得る様々なシステム障害を想定し、実際にITインフラストラクチャーやソフトウエアなどにストレステストを行いながら、システムを復旧させる経験を積んできたのだという。こうした訓練が功を奏して、相対的に短期間で、安全にシステムを復旧できたとする。

 フェイスブックの事例は、システムを運用する上で訓練がいかに大事かを教えてくれる。この基本を怠っていたのが、今年に入ってシステム障害を多発させているみずほ銀行だ。特に2021年8月20日に発生した、営業店の窓口業務が全面停止するトラブルにおいては、システム復旧の訓練を怠っていたことが致命傷となっていた。