障害防止だけでなく復旧対策にもっと目を向けるべき―システム・トラブルが頻発するなか、こう考える企業が増えてきた。復旧作業に手間取り、顧客の信頼を失うケースが相次いでいるからだ。どのような復旧手順のルールを作り、どう運用すればよいのか。住友化学工業や関西電力、東京三菱銀行などの事例をまとめた。

(広岡 延隆、西村 崇)

読者限定 【本特集の“予習”】を読む


【無料】サンプル版を差し上げます本記事は日経コンピュータ2003年7月14日号からの抜粋です。そのため図や表が一部割愛されていることをあらかじめご了承ください。本「特集」の全文をお読みいただける【無料】サンプル版を差し上げます。お申込みはこちらでお受けしています。なお本号のご購入はバックナンバー、または日経コンピュータの定期ご購読をご利用ください。

図1●ユーザー企業の情報システム部門には、障害復旧体制の強化が求められている
 国土交通省の航空管制システム、全日本空輸の予約・搭乗手続きシステム、ジャパンネット銀行の勘定系システム――これらは最近、障害が発生し大きな被害をもたらしたシステムである。いずれの場合も被害が拡大していく様子を横目に見ながら、現場担当者は復旧作業に追われた。

 例えば今年3月1日に発生した国土交通省の航空管制システムの障害は、欠航215便、大幅な遅延1500便以上、足止めされた客30万人以上という国内航空史上最大のシステム・トラブルを起こした。システム障害の被害がここまで大きくなった原因は、全国すべての航空機の飛行経路や時刻などを管理する飛行計画情報システムの運用体制がズサンだったからだ。

図2●障害から迅速に復旧するための七つのポイント

 システム障害の防止策が甘かっただけでなく、障害を想定した復旧策もきちんと立てていなかった。システムそのものは障害発生から54分後に復旧していたが、その後の手作業による飛行計画情報の再入力に手間取った。このため運行上の安全をいちいち確認しながら、飛行機の出発制限を徐々に解除するしか手がなく、ダイヤの乱れは1日中続いてしまった。この反省から、国土交通省は航空管制システムの障害対策の概要をまとめ、6月23日に発表した。

ますます重要になる障害復旧策

 システム・トラブルが相次ぐなか、障害復旧体制を強化しようという企業が増えている(図1[拡大表示])。

 これまでの障害対策は、どうしても障害防止に目が向いてしまい、復旧策はおろそかになる場合が少なくなかった。しかし、システム障害と復旧のもたつきが取引先や顧客に直接被害を与えるようになると、リスク管理体制の甘さを指摘されるようになった。

 障害復旧策の整備は小手先ですむものではない。組織的な体制強化が必要になる。オープン化やマルチベンダー化によってシステムは複雑になり、運用のスキルはユーザー企業でもベンダーでも十分ではなくなった。しかも、スキル不足で障害が起こる可能性は高まっているのに、予備システムを安易に用意するようなことは許されない。景気低迷が続くなかで、ぎりぎりまで運用コストを削減することが求められているからだ。

 いち早く障害復旧体制の見直しに動いた企業は、障害復旧のルールを一から見直し、そのルールが定着するような工夫を凝らしている(図2[拡大表示])。以下では、迅速に復旧するための七つのポイントを提示する。

全体を一元管理しつつ復旧ルールを策定

 障害から迅速に復旧するのに、なにも特別なことが必要なわけではない。全体像を把握・一元管理し、障害をあらかじめ想定、対策を準備しておくことが基本だ。そうした体制をユーザー企業側がきちんと管理できればよい。

 「メインフレーム時代には、開発側と密接に結びついた強固な運用体制があった。1990年代にいったん崩れたが、現在は再び運用体制を強化しようという企業が出てきている」とIBMビジネスコンサルティング サービスの山路幹夫マネージング・コンサルタントは最近の傾向を語る。

 現在はメインフレーム時代よりも、ネットワークを含めてシステム全体を俯瞰する作業が重要になる。こうした現状に即した障害復旧ルールの構築に取り組む、住友化学工業や日本新薬、関西電力、デジタルブティックの取り組みを紹介する。

POINT1
ネットワークを含め現状を徹底分析

 「1年前まで、ネットワークを含めた電子商取引(EC)システムの全体像とその弱点を把握していなかった」。住友化学工業のシステム構築・運用子会社である住友化学システムサービス(SSS)の西川浩取締役はこう打ち明ける。「これでは安定運用も復旧時間短縮もコスト削減も望めないと考え、徹底的に現状調査を始めた」(西川取締役)。

 同社の樹脂や化成品などを扱うECシステムは「今後当社の屋台骨になる重要なシステム。稼働から2年で、当社の6300億円の売り上げの数%を占めるまでに急成長した」と住友化学 技術・経営企画室の古屋隆司 主席部員は説明する。システムが停止すれば、顧客である販売代理店に迷惑をかけることになる。とはいえ、むやみに費用を投入することはできない。

 そのためにSSSはまずネットワークとシステム構成機器のすべて洗い出すところから始めた。ネットワーク図の表記の全社統一仕様を定めるという、まさにゼロからのスタートだった。そのうえで「格子分析表」と呼ぶ表を日本IBMと共同で作成。システムを構成しているサーバーやネットワーク機器の障害が発生したとき、業務にどれだけ影響するか、代替機はあるのか、どのECシステムに影響するのか、などを分析した。

 これによって復旧対策が不十分な機器を見つけることができた。例えば、格子分析表で×印がついているSCIDCルーターは、ダウンすると6種類あるECシステムの機能がすべてストップすることが判明。予備機はあったが、他のルーターへの代替機としての利用も想定していたため、障害が発生した場合には技術者がルーターの設定に「30分ほどかかることがわかった」(SSSの藤澤順一システムセンター長)。不具合が発生すれば、障害発生の検知、障害個所の特定、ルーターの設定・接続という作業に1時間強は必要になり、その間業務がストップしてしまうという分析結果になった。

 そこでSSSは、あらかじめ設定作業したルーターの設置を、システム利用者である住友化学に提案した。こうすればネットワークを切り替えるだけですむため、復旧時間を30分は短縮できる。新しいルーターを購入する必要はあったが、費用は35万円ですむと説明した。住友化学はこれを受け入れた。

 「かつてシステム部門(現在のSSS)は利用部門(住友化学)のニーズにそのまま応え、かかった費用を請求する、という姿勢があった。運用コストをきちんと明示し費用対効果を議論するようになったことで、住友化学とSSSの間によい意味で緊張感ができた」と、SSSの西川取締役は語る。


続きは日経コンピュータ2003年7月14日号をお読み下さい。この号のご購入はバックナンバー、または日経コンピュータの定期ご購読をご利用ください。