全5767文字
PR

 みずほ銀行で2021年2月28日に起きたシステム障害では、運用担当部門が警告を見逃したりエラーを適切に分析できなかったりした結果、トラブルが拡大した。運用担当者は貧弱なツールしか与えられず、電話や口頭での情報共有を強いられていた。運用担当者の人的ミスではなく、組織的な問題があった。

 本特集はこれまで、勘定系システム「MINORI」でトラブルが連鎖的に広がっていった詳細を解説してきた。今回は「(5)なぜ警告やエラーは見逃されたのか」「(6)なぜ障害の規模や原因を見誤ったのか」「(7)なぜ頭取に情報が届かなかったのか」「(8)なぜ営業店での顧客対応が遅れたのか」を取り上げることで、トラブルの連鎖を止められなかった原因を解き明かそう。

ささいなミスが大規模障害に発展した原因
疑問点概要
1なぜデータベースは更新不能になったのか
2なぜDBの更新不能がATMのカード取り込みにつながったのか
3なぜ「二重エラー」が発生したのか
4なぜ一度減ったATMのカード取り込みが急増したのか
5なぜ警告やエラーは見逃されたのか
6なぜ障害の規模や原因を見誤ったのか
7なぜ頭取に情報が届かなかったのか
8なぜ営業店での顧客対応が遅れたのか
9なぜe-口座への一括切替処理を2~3月に実施したのか
10なぜインデックスファイルをメモリーに置いたのか
11なぜインデックスファイルのリスクを見逃したのか
12なぜSOAなのに被害が拡大したのか

(5)なぜ警告やエラーは見逃されたのか

 2月28日のシステム障害に関しては、その前日である2月27日にトラブルの予兆が現れていた。27日は「みずほe-口座」への一括切替処理の初日であり、28日同様に45万件の定期性預金口座をe-口座に切り替える処理を実行していた。その際、定期性預金システムのデータベース(DB)にある「取消情報管理テーブル」のインデックスファイルの使用率が87%に達し、警戒すべきしきい値の80%を超えたとして、システムはアラートを発していたのだ。

 しかしみずほ銀行は27日、インデックスファイルの使用率に関するアラートを見逃してしまう。そして28日、同じ一括切替処理を再び始めたところ、インデックスファイルの使用率が100%を突破し、それを引き金に大規模なシステム障害が起きてしまった。

 なぜ、みずほ銀行は27日の警告を見逃したのか。システムの監視体制に大きな不備があったためだ。

 みずほ銀行のシステム運用担当部門は、IT・システム統括第一部だ。MINORIの運用監視については、みずほフィナンシャルグループ(FG)の子会社であるみずほリサーチ&テクノロジーズ(MHRT、みずほ情報総研とみずほ総合研究所が2021年4月1日に統合。当時はみずほ情報総研)や、みずほFGが35%を出資するMIデジタルサービス(MIDS)が実務を担当する。MIDSの親会社は65%を出資する日本IBMだ。

 通常時のエラー監視の実務を担っているのはMIDSだ。データセンターにオペレーターを置き、24時間365日体制で監視に当たっている。ところが2月27、28日に実施するe-口座への一括切替処理に際しては、MHRTがエラー発生状況などを監視するため、MIDSの対応は不要としていた。

みずほ銀行におけるシステム監視体制
みずほ銀行におけるシステム監視体制
出所:第三者委員会の調査報告書を基に日経クロステック作成(以下同)、MIDS:MIデジタルサービス、MHRT:みずほリサーチ&テクノロジーズ
[画像のクリックで拡大表示]

エラー監視できる体制ではなかった

 しかし実際には、MHRTはエラー監視ができる体制を構築できていなかった。MHRTは担当者が事務所に24時間365日常駐する体制をとっておらず、休日などにシステム障害が起きた際には、品川シーサイド事務所に駆け付ける必要があった。

 しかもMHRTの事務所であっても、満足にエラーを分析できたとは言いがたい。MIDSには「統合運用基盤システム」があり、同システムがMINORIのエラーログの内容を分析して「エラー出力場所」や「対応優先度」などを自動的に判定してくれた。しかしMHRTの担当者は、MINORIの開発端末を使って「生」のエラーログを1つひとつ確認する必要があり、エラーログの深刻度にすぐに気付けない状況に置かれていた。

 MHRTは担当者が事務所外でもシステム監視ができるよう、エラー発生状況をメールで送信する「NOIシステム」を用意していた。しかしこれは、事実上使えなかった。NOIシステムはメール1件当たり最大15件のエラーログを掲載して送信する仕組みだったためだ。このエラーログも「生」の状態であり、エラーの発生した場所や深刻度などは分からない。

 こうした事情もあり、MHRTの担当者は2月27日に発生したシステムアラートを見逃してしまう。MINORIのデータセンターに常駐していたMIDSの担当者ならこのシステムアラートに気付いた可能性があるが、いずれにせよその情報はMHRTには届かなかった。MIDSでは土曜日である2月27日に生じたアラートについて、翌営業日である3月1日月曜日に電話でMHRTに伝える取り決めになっていたためである。

 みずほFGが設置した第三者委員会は調査報告書で「リスク認識の欠如や知見のある担当者の不在により、そもそも対応の必要があったことの認識ができず、2月27日の時点で発せられていた予兆を見逃した」と結論付けている。