全4322文字
PR

 「システムの障害対応をしている最中に関係者全員が自宅待機を命じられたらどうしますか」

 知り合いのベテラン技術者からこんな書き出しのメールが送られてきた。新型コロナウイルスの感染拡⼤を受け、情報システムを担当する現場では同様の議論が避けられなくなっているはずだ。

 情報システムにトラブルが起き、止まってしまったり、間違った結果を出したりしたときには、関係者がデータセンターなど1カ所に集まり、情報を集め、議論をしながら原因を見つけ、対策を打っていく。一連の仕事を自宅や病院など別々の場所にいながらこなしていけるだろうか。

 彼はメールの中で次のリスクを指摘した。「障害対応をしていたメンバーから感染者が出た場合、障害対応の関係者全員が濃厚接触者とみなされてごっそり自宅待機、ということになりかねません」。

 関係者が1カ所に集まれない、これは今回に限らず、パンデミックや災害が起きたときにあり得ることである。

 「どうしますか」と問いかけられたので「ビデオ会議でなんとかできるのでは」と返信したが、彼は「そう簡単ではありません」と言ってきた。彼とのやり取りを以下に再現する。

トラブル時に現状をどう把握するか

 「私もシステムの障害対応に関わり、現場で汗をかいた経験があります。その経験が無かったらテレワークで何とかなると思ったかもしれませんが、刻々と状況が移り変わる現場はそれで済むほどきれいにまとまったところではありません。情報共有1つとっても相当面倒です。トラブル時に現状をどう把握しているかご存じですか」

 「電子掲示板か何かでしょうか」

 「大抵の場合、ホワイトボードです。厄介なのは書く内容が多岐にわたり、しかも関係者によって重視するところが違うことです。障害対応時にホワイトボードで共有される情報は大きく4種類あります。何だと思いますか」

 「まず現状でしょうか」

 「そうです。システムの利用部門や外部の顧客からの連絡、トラブルを起こしたシステムの上流あるいは下流のシステムの担当者との連絡、運用部門からの連絡などがあり、その明細を書きます。エラーメッセージやジョブの遅延、データ未着といったことも書きます。2番目の情報は何でしょう」

 「リカバリーのやり方でしょうか」

 「それも必要ですがその前に『望ましい状況』を把握しないといけません。バッチ処理を例にとると、システムが通常稼働している場合のジョブ名と稼働時刻、先行ジョブと後続ジョブをつないだジョブネット図。運用設計のときに文書として作られているはずですから印刷してホワイトボードに貼り付ける。そうすれば、あらかじめ設計された望ましい状況がこれか、とすぐ分かります。ついでに関係連絡先の一覧も貼っておくといいでしょう」

 「望ましい状況が分からないと、どう修正していくかを考えられないわけですね」