システムダウンを繰り返さないためには,運用業務・運用ミスへの正しい理解が必要。今後は,社内や他社の失敗事例を蓄積・共有する仕組みも不可欠になる――。「ITpro EXPO 2009」の「実例1000件に学ぶシステムダウン対策」と題する講演で,日経コンピュータの大和田尚孝記者は,こう強調した。大和田記者は,書籍「システムはなぜダウンするのか」(2009年1月,日経BP社)の著者である。
冒頭で,大和田記者は,NTTデータ経営研究所の「社会インフラにおける停止許容時間についての調査」の結果を紹介した。この調査によると,一般の人1000人に「電気,水道,ガス,ATM(現金自動預け払い機),電車のうち,5分止まっても許容できるのは?」と尋ねたところ,「許容できる」と答えた人の割合は水道が84.1%,電車が82.9%,ガスが76.6%,電気が73.2%,ATMが71.0%だった。一般の人は,ATMのシステムダウンが最も「許容できない」のである。
この傾向は,時間を10分にしても同じだった。「10分止まっても許せる」と答えた割合は,水道が77.7%,ガスが69.5%,電車が59.5%,電気が56.7%で,ATMが49.4%。2人に1人が「ATMは10分止まったら許せない」と考えているわけだ。
このことから,大和田記者は「一般の方は,システムダウンに対して厳しい目を向けている」とした。
次いで,最近のシステムダウンの傾向として,「運用・設定ミス」が原因になっていることが多いと指摘した。実際,日経コンピュータの誌面で取り上げたシステムダウン事例を分析したところ,原因のうち運用・設定ミスが占める割合は80年代は9.2%だったのに対して,90年代は16.8%,2000 年代には31.6%に上昇しているという。
ITproで実施したアンケートでも,「運用・設定ミスをしたことがある,あるいは見たことがある人の割合は7 割に及ぶ」(大和田記者)という。
運用・設定ミスは,「メインフレーム環境よりもオープン環境のほうが多発している」という。これは,「オープン環境は,メインフレームほどには作業手順が確立していないためにヒューマンエラーが起こりやすい」(同)ためだ。
システム接続先の増加,システム化範囲の拡大,システムの肥大化・複雑化といった理由により,システムダウンの影響がますます広範囲になっていることも指摘した。一例としてグーグルの「Gmail」のシステムダウンを挙げ,「ヨーロッパのトラブルが地球を半周して日本にまで及んだ」(大和田記者)ことを説明した。
その一方,「運用部門ががんばっている成果も見える」とする。「日経コンピュータ誌面で取り上げたシステムダウン事例のうち,稼働率が99.9%以上のシステムは59.7%と約6割に上る。また,システムダウン全体に占める全面ダウンの割合も,80年代は67.9%だったが,90年代には 44.6%,2000年代には27.6%まで減少した」(同)。