全4134文字
PR

 日経コンピュータによる書籍『ポストモーテム みずほ銀行システム障害 事後検証報告』(日経BP)が2022年3月17日に発売される。2021年2月からの12カ月間に11回ものシステム障害を発生させたみずほ銀行。一連の障害の原因や背景を、日経コンピュータが全力で検証・解説した書籍だ。みずほ銀行の障害多発は大きな社会的混乱と批判を招いたが、本書はみずほ銀行を糾弾していない。それはなぜか。本書のメインライター中田敦による「はじめに」をお読みいただきたい。(技術メディアユニットクロスメディア編集部)

 ポストモーテム(Postmortem)──。米国のIT企業は、システム障害が発生した後に社内外の関係者と共有する事後検証報告書をそう呼ぶ。

 ポストモーテムとは直訳すると「検視」または「死体解剖」だ。人が突然死去した際に、司法機関が遺体を解剖するなどして死因を調べ、犯罪性の有無を明らかにする。

 情報システムは生き物と同じで、どこに悪い部分が隠されているのか、外見からだけではうかがい知れない。人間であればその死因は、解剖して初めて明らかになる。それと同じように情報システムでトラブルが発生した原因も「解剖」して調べる必要がある。システムが記録する「エラーログ」を分析したり、システムを運用する担当者に話を聞いたりする作業が解剖に当たる。

 ただし犯罪捜査であればポストモーテムは犯人逮捕などの証拠に使うのに対して、IT業界の場合はそうではない。ポストモーテムはシステム障害における犯人を探す道具ではなく、発生した事象から教訓を得て、今後の取り組みに生かすために使う。

 チェスの感想戦も英語ではポストモーテムと呼ぶ。IT業界のポストモーテムもその用法に近い。プロジェクトマネジメントの教科書的存在である「PMBOK(プロジェクトマネジメント知識体系)」も、ソフトウエア開発プロジェクトなどが終わった際に行う反省会をポストモーテムと呼んでいる。

 ポストモーテムは学びの宝庫だ。特に大手クラウド事業者などがシステム障害の後に公表するポストモーテムは、本来なら外部からは知り得ないクラウド内部の技術的な詳細や運用の実態、設計思想などを教えてくれる。

 その中でも米Google(グーグル)の電子メールサービス「Gmail」が2011年2月に障害を起こした際に発表されたポストモーテムは、IT業界に大きな驚きを与えた。

 Gmailではこのとき、メールデータを格納するサーバー群のソフトウエアに存在したバグが原因で、メールデータが削除される障害が発生した。当時のGmailのユーザー数は推定2億人で、全体の0.02%、およそ4万人のユーザーのメールの一部が削除された。ただしグーグルはユーザーのメールデータを磁気テープにバックアップしていたので、削除されたデータは障害発生から4日後までに復元できた。こうした経緯が後日、ポストモーテムとして公開された。