全2786文字
PR

 「やはりそうだったのか」――。みずほ銀行で発生した一連のシステム障害について、「システム障害特別調査委員会」がまとめた調査報告書(2021年6月15日)を読み終えて、残念な気持ちになった。

 報告書では発生した4件の障害について事実概要や原因を説明している。特に影響が大きかったのは、システムのキャパシティー不足に起因する、2021年2月28日に発生したデータ更新作業の失敗だ。特定条件の口座をみずほe-口座に一括切り替えする処理で、前日の27日は全体で60万件のデータを問題なく処理したが、28日は同70万件だったためにメモリー不足に陥った。この経緯を踏まえ、筆者は3月に執筆した記事で「前日の運用に、障害を回避できるヒントがあったのではないか」と指摘した。

関連記事: みずほ銀行システム障害の原因に疑問、気になる「前日の運用」

 指摘した内容は2つある。1つは、前日のメモリー使用率もかなり高かったのではないかという点。もう1つは、そうした運用状況だとしてアラートは上がらなかったのかという疑問だ。記事中、両日のデータ量の単純比較から、筆者は27日のメモリーの使用率は85%程度と推測した。先の報告書によれば、27日の使用率は87%に達していたという。

 同行の運用ではこの使用率に対して80%というしきい値を設定していた。当日の28日、これを超えたためにアラートが上がったが、しかるべき対処にはつながらなかった。報告書には「閾値(80%)を超過している旨のシステムログが統合運用端末にて確認できる状態にあった」とある。しかし対応すべき担当部門は「閾値を超えた警告であったことを見逃していた、又は確認はしたものの対応の必要があることの認識をしていなかった」とする。

 報告書はシステム面の説明も詳しく、28日にどういった経緯でメモリー不足のトラブルが起きたかがよく分かる。その流れを追っていくうちに、また疑問が湧いてきた。なぜ、このようなデータベース運用になっているのか。キーワードは「本件メモリ常駐」だ。