PR

 「システム運用担当者は,活躍する場が無いことが活躍しているってことなんだよ」

 昔,システム運用経験の長い先輩によく言われたものである。システム運用担当というと,システムに障害が発生した瞬間に急に元気になり,徹夜もいとわず対処に没頭する技術者たちというイメージがある。だが,本来システム運用担当の業務とは,システムに故障などが発生してもサービスの停止などが発生することの無いように,障害対策を練ったり日々のメンテナンスを行なったりすることにある。先輩の言葉は,どんな障害が発生しても,あらかじめ用意されている対応手順に従って淡々と対応できるよう,日々の準備を怠ってはいけない,ということを意味しているのである。

 これから書く内容は,運用担当チームがシステムの監視に使用しているメール・サーバーで発生した障害とその対応の話である。筆者が障害対応担当者として直接かかわったものだ。対応の経過とともに,発生した問題についてどうすれば防ぐことが出来たのかなど,筆者がこうあるべきと考えるシステム運用の形についても紹介していきたい。

 第1回は,障害発生の検知から障害対応手順書に従った一次対処までである。

 「メール・サーバーからメールを受信できないようなのですが‥」

 ある日の夕方,システムの監視を担当しているメンバーから報告を受けた私は,障害対応手順書を用意し同僚であるもう一人の運用担当者とともにサーバー・ルームへと向かった。

 「いつもの不具合ですかね?」「たぶんそうだと思いますよ」

 今回障害の発生したメール・サーバーでは,過去に何度か同様の事象が発生しており,その対処方法は障害対応手順書にまとめられている。最近は事象の発生頻度が高くなっており,いずれ原因を解明し根本的な対処を施さないといけないと思いつつも,ほかの業務を優先させてしまい,原因解明は後手に回ってしまっていた。今回も,いつもと同様の対処手順で復旧するだろうと考えていたのだ。

 このメール・サーバーは顧客から運用を委託されたシステムの監視に使用している。システム上で動作している様々なバッチ処理の結果をメールで受信し,その処理結果を確認するためのものだ。また,システムを監視するサーバーが異常を検知した際に送信するメールを受信する役目も併せ持っている。

 バッチ処理結果の確認作業の中には,処理実行後すぐに確認が必要なものがあり,それまでにメール・サーバーを復旧させなければならないが,次回の実行までには3時間ほど余裕がある。また,異常を検知したメールも,このメール・サーバーを介さない経路で私たちの持つ携帯電話にも届く仕組みとなっており,数時間の停止であれば監視業務への影響もそれほど大きくはない。

 決して油断していたわけではない。だが,あれほど苦労することになろうとは,さすがに予想できなかった。

 この話に登場するシステムは,ISP(インターネット・サービス・プロバイダ)の監視サービスを利用したネットワーク機器の監視と,運用担当チーム監視サーバーによるサーバー監視との2種類の監視を行なっている。また,監視システムで検知した異常は,今回障害の発生したメール・サーバーへメールが送信されるとともに,外部の監視サービス・ベンダーにも送信されることになっており,メールの受信と監視サービス・ベンダーからの電話連絡という2重の通知を受け取る仕組みになっている(図1)。

図1●障害が発生した監視システムの概要図
図1●障害が発生した監視システムの概要図