システムトラブルの原因として今も多いのは「ヒューマンエラー」と「想定不足」。
これらは組織を挙げた取り組みで予防・軽減できる。
「動かないコンピュータ」を経験した企業や組織はどのようにして“失敗”を糧にシステム運用力を向上させたのか。
六つの事例を基に検証する。
(玄 忠雄)

情報システムの大規模障害が後を絶たない。この2~3年で、金融業界では証券会社などのネットサービスでトラブルが相次ぎ発生、業務改善命令を受けた。クラウド事業者のデータセンターでの障害も頻発している。
システム障害の原因は大きく「ヒューマンエラー」と「想定不足」の二つ(図)。どちらも不可避と見られがちだ。失敗学の専門家は、「ヒューマンエラーも想定不足も、現場での日ごろの改善活動を通じて軽減できる」(失敗学会の飯野謙次副会長)と指摘するが、分かっていても実践するのは難しい。

そこで参考になるのは、実際にシステムトラブルに遭遇した企業や組織の取り組みだ。各社はトラブルを機に、二度と同じ目に遭わないために組織を挙げたシステム運用力向上策を進めている。
本誌は、「動かないコンピュータ」欄でここ約2年の間に取り上げたファーストサーバ、野村総合研究所、地方自治情報センター、気象庁、住信SBIネット銀行、法務省に直接取材。各社・組織が取り組むシステム運用向上策を探った。
全社員で「ヒヤリハット」
レンタルサーバー事業のファーストサーバは2012年7月、顧客企業が利用していたサーバー約5700台のデータが丸ごと消失するトラブルを起こした。一人の運用担当者による作業ミスが原因だった。
この担当者は、OSのセキュリティパッチを適用する際に、一つの作業用スクリプトに様々なコマンドを記述しておき、不要なコマンドをコメントアウトするといった危険な作業方法を採っていた。しかも、上司の承認を得ずにスクリプトを本番環境に適用しており、職務分掌が徹底していないなど組織全体で大きな問題点があった。
580件のヒヤリハットを全社員から収集
ファーストサーバは外部有識者を交えた事故調査や提言を受け、組織を挙げた抜本的な再発防止策に取り組んだ。取締役社長室室長の村竹昌人氏は、「中でも大きかったのは『ヒヤリハット』活動。現場の意識を変えるきっかけとなった」と話す。
ヒヤリハット活動とは、現場が日常業務で「ひやりとした」または「ハッとした」経験(以下、ヒヤリハット)を洗い出すことを指す。「大きな事故や災害の裏には、必ず数多くの小さなトラブルが隠れている」という「ハインリッヒの法則」に基づく。この経験則はシステムにも適用可能とみなせる。
トラブル防止策として、ヒヤリハット活動が有効だと同社は判断。常駐する協力会社の社員を含む約140人の全社員を対象に実施した。2012年9月から12月にかけて、表計算ソフトで作成したシートを配布。どんな気付きでも自由に書いてもらった。ヒヤリハットのほか、気掛かりなことや「これでいいのか」と思った疑問、問題意識を対象とした。
社員が挙げたヒヤリハットは580件近くに上った。「障害が再発したら、ディスク装置やサーバーの予備が不足するに違いない」「マニュアルが古くて役に立たない」「顧客サポート用のWebサイトがサービスごとにバラバラ」など、様々な意見が集まった。多くの社員は一人で考えて記入したが、社員同士で議論するケースもあったという。
ファーストサーバは集まったヒヤリハット情報の重複などを整理した上で、緊急に対策を打つべき課題を16件にまとめた。「属人的に運用しているサービスが障害時に問題になる」「ハードの予備部材が不十分」「運用・復旧手順書が不足し、更新漏れでマニュアルが古くなっている」「大規模障害時の対応マニュアルが未整備」などである。
ヒヤリハット情報は全社員で共有。2013年1月から、これを基に「マニュアルを明示的に書き、引き継ぎを容易にする」といった対策を実施した。
ヒヤリハット活動により「社員一人ひとりの意識が変化した」と村竹取締役は評する。従来は日々の作業に追われ、仕事で感じた日々の疑問点を言い合う雰囲気ではなかったという。ヒヤリハット活動を実施したところ、課題や疑問を会議などで自発的に指摘できる雰囲気に変わっていった。
続きは日経コンピュータ2014年2月20日号をお読み下さい。この号のご購入はバックナンバーをご利用ください。