全3426文字
PR

 頭取がネットニュースでトラブルを知った、障害発生を知らせる緊急メールを多くの部署がスルー、顧客対応が後手に回って被害拡大――。みずほ銀行が2021年2~3月に引き起こした大規模システム障害は組織間の連携不足、いわゆる「大企業病」が招いたと言えるだろう。緊急事態に直面し、組織力の弱さがあらわになった。

 みずほフィナンシャルグループは有識者によるシステム障害の特別調査委員会を設け、同委員会から受け取った調査報告書を同年6月に公表した。「頭取にトラブルの情報が伝わるまで3時間以上かかった」など、トラブル発生から事後対応までにおける経営と組織縦割りの問題点が次々と明らかになった。

 ここでは、あえて大企業病とは別の視点からひとつの疑問を投げかけてみたい。仮にトラブル発生直後に経営トップへと情報が伝わっていたとしたら、被害の拡大を防げたのだろうか。

 経営トップが陣頭指揮を執ることによって顧客対応がスムーズに進んだ可能性は確かにあっただろう。例えばキャッシュカードがATMに飲み込まれたまま返却されなかった2月28日のトラブルについては、行員を全店舗に緊急配備することにより、「事後」の混乱を減らせた可能性はある。

 一方で、全167ページにわたる報告書をじっくりと読み込んだ、あるITの専門家は次のように話す。「たとえ経営陣に連絡を取れていたとしても、システム障害の発生は防げなかった。事後対応のまずさよりも、不具合の連鎖によりシステム障害を発生させてしまったことが問題だ」。

 2月28日に発生したみずほ銀行のATM障害は、メモリーの容量不足やデータベースの更新不能など複数のエラーが重なることによって影響範囲が広がった。2年前に同様のトラブルが発生し、前日にもシステムリソースの不足を警告するメッセージが出ていたにもかかわらず、それを見逃した。

 これらは事後調査で判明したことである。当日午前のトラブル発生直後の時点では、情報システムにどんなエラーが起こり、どんな状態が発生していたのかについて、誰も把握しきれていなかった。

 「問題の本質は、顧客に迷惑がかかる事態に拡大するよりも前に、システムエラーを収束させることができなかった点にある」と専門家は分析する。

9万件の「SOS」、適切に読み取れず

 情報システムの障害を知る最も有力な手段は、運用システムにおけるエラーメッセージである。運用オペレーターが管理画面に表示されたメッセージを見て、その意味を読み取り、運用責任者などと影響範囲や原因について調査・判断する。必要に応じて開発部門などとも議論し、システム担当役員や経営陣などへとエスカレーションしていく。

 いわば情報システムからのSOSとも言える、エラーメッセージについて報告書には次のような記載がある。「(ATMトラブルが発生した2月28日の)9時50分から10時5分の間に約6400件のエラーメッセージが発生し、(以後略)」。

 わずか15分間のあいだにこれだけ大量のエラーメッセージが出ると、オペレーターがその意味をすべて読みこなし、何が起こっているのかを適切に解釈するのは難しい。実際、いくつかの伝達漏れなどがあり、システム障害の実態をつかむのに時間がかかってしまった。ちなみに2月28日全体では「およそ9万件」(報告書より)のメッセージが発生したという。

 みずほ銀行はエラーメッセージの内容を関係者がメールなどで自動的に共有できる仕組みを用意していた。だがエラー情報はメール1通につき15件しか記載できない仕様だった。クラウドを経由することによるタイムラグもあり、実質的な情報連携の手段としては機能しなかった。

 つまりトラブル発生直後は、システム運用にかかわる最前線の人たち、あるいはシステムの構造をよく知る開発要員ですら、システム障害の実態をつかみきれなかった。誤解のないように付け加えると、システム運用担当者だけに全面的な非があると述べたいのではない。大規模障害が不運にも発生したときに、その実態を迅速につかむシステム運用の仕組みがなかったことに問題があると指摘したいのである。