PR

 しかし「これは大変だ」となると担当者はデータセンターに駆け付けます。上司に報告が上がります。担当者だけでは対処できない事態だと判明すると待機人員に連絡して増強します。この段階では部長や本部長レベルまでたたき起こされます。もし復旧が間に合わない場合に、翌朝からの顧客対応などを考える必要があるからです。

 エンタープライズITのシステム運用は大体どこの会社でもこんな感じではないかと思います。少なくともNRIではこうしたイベントドリブン型のシステム運用でやってきました。運用プロセスを長い年月を掛けて洗練させ、こなれてきていました。たいがいの問題が起こっても対処できる自信を持っていました。

 この自信が吹き飛んだのが、データセンターの電源設備そのものが障害を起こした4年前の大規模障害です(関連記事:停電・故障・設計不備が重なる100システムが利用不能に「できろ」という命令がIT組織を腐らせる)。このときは随所に想定外のトラブルが発生しました。明け方近く、私の携帯電話が鳴りました。掛けてきたのはデータセンターを管理する本部長です。

「○○データセンターの電源が落ちました」
「何だって? 影響範囲は?」
「分かりません! およそ半分のサーバーがダウンしている模様です」

 データセンターには数千台のサーバーがあります。しかしデータセンターの管理部門は、それぞれのサーバーで一体どんなシステムが動いているかを知らなかったのです。

 障害復旧を指揮する部隊はさらに混乱していました。ネットワークならネットワーク、サーバーならサーバーの個別の障害に対処するプロセスは確立できていました。しかし今回はネットもサーバーもアプリケーションも障害を起こしており、相互に影響していました。