全2761文字
PR

みずほ銀行で2021年2~3月に発生したシステム障害。第三者委員会はATM障害の原因を運用の人為的なミスと結論づけた。しかし「MINORI」自体にも、運用を難しくする「落とし穴」があった。

 みずほフィナンシャルグループ(FG)は2021年6月15日、みずほ銀行で2021年2月28日、3月3日、7日、12日に発生したシステム障害について、第三者委員会「システム障害特別調査委員会」による調査報告書を公開した。

 2月28日に起きた障害は顧客への影響が大きく、障害の原因も複雑だった。一方、3月3日と3月12日はハードウエア障害が、3月7日はプログラムの設計ミスが原因であり、影響も限定的だった。そのため調査報告書も2月28日の障害について手厚く記述した。

表 みずほ銀行で2021年2~3月に発生したシステム障害
表 みずほ銀行で2021年2~3月に発生したシステム障害
[画像のクリックで拡大表示]

 2月28日のシステム障害では、ピーク時は自行ATMの7割超に相当する4318台が稼働を一時停止した。これに伴い、ATMが通帳やキャッシュカードを取り込むトラブルが合計5244件起きた。ATMやインターネットバンキング「みずほダイレクト」の一部取引もできなくなった。

 報告書は2月28日の障害について「MINORIの構造、仕組み自体に欠陥があったのではなく、これを運用する人為的側面に障害発生の要因があった」とし、原因を運用に求めた。

インデックスがメモリー容量を超過

 報告書によると、2月28日のシステム障害の発端は勘定系システム「MINORI」の一部である「定期性預金システム」のデータベース(DB)でトラブルが続発したことにあった。1年以上記帳がない定期預金の口座約45万件を、通帳を発行しない「みずほe-口座」へ一括して切り替える処理の作業中に、DBに存在する「取消情報管理テーブル」のインデックスファイルのサイズが、確保していたメモリー容量を超過した。その結果、DBの更新処理ができなくなった。

 定期性預金システムのDBで更新処理エラーが続発したことをきっかけに、MINORIの司令塔に当たる「取引メイン」と呼ばれるシステムで、さらなる不具合が発生した。取引メインは定期性預金システムで起きたDB更新処理エラーに対応するため、その更新を自動的に取り消そうとした。しかし取り消し処理に必要な情報が定期性預金システムのDBに残っていなかったため、取り消し処理自体がエラーになる「二重エラー」が発生した。

 MINORIは取引メインで二重エラーが相次ぎ発生すると、システムの全面停止を防止する措置を自動的に開始する。具体的には、勘定系システムに対するトランザクションの入り口にあたるATM処理システムや、みずほダイレクトの処理システムが稼働するメインフレームのパーティション(区画)をシャットダウン(閉塞)することで、トランザクションを抑制しようとした。ATM処理システムのパーティションが次々とシャットダウンしていった結果、ATMにおける通帳やキャッシュカードの取り込みが発生した。

 2月28日のシステム障害の原因は突き詰めると、定期性預金システムのDBにおけるインデックスファイルのメモリー容量超過に行き着く。「一見初歩的なミス」(報告書)だが、背景にはシステム運用における大きな問題があった。

 実はシステム子会社であるみずほリサーチ&テクノロジーズ(みずほ情報総研とみずほ総合研究所が2021年4月1日に統合、当時はみずほ情報総研)の運用担当は、取消情報管理テーブルのインデックスファイルがディスクではなくメインメモリーに保存されており(報告書では「本体メモリ常駐」)、DBに大量の更新処理がある際には、十分なメモリー容量を確保する必要があるとの認識がなかったのだ。

 MINORIの基本設計の時点では、インデックスファイルはディスクに保存することになっていた。しかし必要となるパフォーマンスが出なかったことから、その後に保存先をメモリーに切り替えていた。保存先にディスクではなくメモリーを使う場合、メモリー容量が枯渇しないよう注意しなければならない。それにもかかわらずこれらの情報が、みずほFGの組織内で適切に引き継ぎ・共有できなかった。

 こうした事情からMINORIの運用担当は、定期性預金システムのDBにおけるメモリー容量に対する注意を怠っていた。そのためメモリー容量が逼迫したとのアラートが出てもそれを見落とし、メモリーの枯渇によるDBの更新処理エラーを招いた。これが人為的ミスであるのは間違いない。