PR

 日経コンピュータの6月11日号で「動かないネットワークからの脱出」という特集記事を執筆した。ネットワークが関わるシステム障害は,波及する範囲が広い。これに対する備えをきちんとしなくてはならない,と感じていたからだ。興味のある方は,こちらへ申し込んでいただければ,特集のサンプル版をお送りしている。

 取材は4月中旬から本格的に始めたが,5月になってこれを裏付けるような大規模なトラブルがNTTグループや全日本空輸(ANA)で相次いだ。どれもネットワーク同士をつなぐ装置,もしくはネットワークと端末をつなぐゲートウエイの不具合によるものだった。

 ネットワークやシステムの運用企業の多くは,障害が起こった際に問題を回避するためのバックアップを用意している。読者の中には,トラブル発生時に「あれほどの大企業がバックアップを持っていなかったのか」と疑問を抱いた方も多いだろう。筆者も最初はそう疑ったが,各社ともバックアップを持っていた。

 ただ,結果からすれば,バックアップは有効に働かなかった。ここから企業のIT部門は何を教訓にすればいいのか,筆者の考えを述べたい。

 ANAの国内旅客システムでは,バックアップを使わなかった(関連記事)。その理由の一つが,システムが完全にダウンしていなかったということ。空港においたチェックイン端末からの入力は,細々と処理されていた。

 また,データの整合性も問題だった。障害が大規模化した時点で,既に多くの旅客がメインのシステムでチェックインを済ませていたからだ。メインに戻す際にはバックアップからデータを移す必要があるが,ANAは4年前にはこのプロセスで多重のトラブルを発生させている。

 IP電話サービス「ひかり電話」がNTT東西間で通話できなくなった件では,バックアップが起動しなかった(関連記事)。問題はNTT東日本の子会社であるNTT-MEの管理するサーバーで発生した。同社は,バックアップを起動するケースをサーバーのハードウエアの故障としていたため,当時発生したソフトウエア障害には対処できなかったのだ。

 NTT東のアクセス回線サービス「フレッツ」のケースは,バックアップそのものがトラブルの原因だった(関連記事)。

 トラブルの発生時,一つのネットワークを構成するルーターの数が限界を超えていた。そこにきて,フレッツを提供している1台のルーターが故障。修理のため,一時的にバックアップ回線に切り替えた。しかし,バックアップへの切り替えとその後のメインへの切り戻しに伴って,エリア内のほとんどのルーターにおいてIPパケットの“行き先設定”の変更が発生。ルーターに過大な負荷がかかり,14もの都道県でフレッツ網が麻痺した。

 こうして見ると,バックアップが有効に使われなかった理由は様々。ただ,教訓として読み取れることはいくつもある。

 一つは障害の影響範囲を極小化することだ。

 実際,ANAは過去のトラブルを契機に,障害が全システムに及ばないようにしていた。今回,障害が国内システムに限定されたのは,「不幸中の幸い」との見方もできる。NTT東もフレッツのネットワークを分割することで,波及範囲の限定とルーターの負荷軽減を図ろうとしていた矢先だった。ひかり電話の東西間接続についても,1台の制御サーバーでの運用を改めるなどバックアップの強化を検討しているという。

 もう一つが,あえて「止める」ことではないだろうか。

 ITへの依存度が高まる中,24時間365日止めることが難しいシステムは世の中にたくさんある。NTTやANAは,金融業とともにその最たる例であろう。ここまで大規模化してしまったネットワークやシステムは,いったん動き出すと止めるのは難しい。

 しかしバックアップが実環境できちんと動くのか,事業継続計画(BCP)の観点からバックアップが業務と連携できているのか,メインのシステムを止めて定期的な確認が必要ではないだろうか。もちろん、メインを止めるにも一定のリスクが伴うし、作業のコストもかかる。ただ、コストだけ見れば1回の大規模障害による影響に比べれば軽微なものだ。

 止める必要があるかどうか、一番分かっているのは現場かもしれない。ITやサービス部門の社員,委託先のITベンダーが障害の予兆を発見したら,大規模トラブルに至る前にネットワークやシステムを止めることを進言する“勇気”も必要だろう。

 最後になるが,NTTやANAでネットワークやシステムに関係する方は今も復旧や改善に全力を尽くしている。ANAは6月11日夕方の時点で障害の原因を究明しきれていない。その多忙の中,取材や質問に応じていただいた。現場の奮闘が実り,一日も早く休息の日々が来ることを期待したい。また,日経コンピュータではITproとバックアップのユーザー事例も含めBCPを特集した,「ビジネスを止めないシステム」というWebサイトを運営している。常にコンテンツを更新しているので,訪問していただければ幸いである。