全1957文字
PR

東京証券取引所で2020年10月1日に起きたシステム障害は、全銘柄の終日売買停止という事態を招いた。原因はNASのメモリー故障と、1台運用に切り替わらない設定不備だった。

 東証の売買システム「arrowhead(アローヘッド)」で取引に支障をきたす大規模なシステム障害が発生したのは2018年10月以来。システム障害により全銘柄の売買を終日停止する事態は東証が取引を全面的にシステム化した1999年以降初めてだ。これにより、3兆円規模の売買機会が失われた。影響は東証だけにとどまらず、arrowheadを使用している名古屋・札幌・福岡の各証券取引所でも10月1日の取引が全銘柄で終日にわたり停止となった。

図 システム障害による取引停止を陳謝する東京証券取引所の宮原幸一郎社長(左から2人目)らと、東証から外部への情報発信の経緯
取引の全面システム化以来、初の全銘柄終日取引停止に
図 システム障害による取引停止を陳謝する東京証券取引所の宮原幸一郎社長(左から2人目)らと、東証から外部への情報発信の経緯
[画像のクリックで拡大表示]
(東京証券取引所の資料などを基に日経コンピュータが作成)
(東京証券取引所の資料などを基に日経コンピュータが作成)
[画像のクリックで拡大表示]

設定不備で切り替えできず

 同社が最初に異常を検知したのは、午前9時の取引開始を約2時間後に控えた午前7時4分だ。arrowheadを構成する運用系ネットワーク内で、同社が「共有ディスク装置」と呼ぶNAS(Network Attached Storage)1号機のメモリーに故障が発生した。

 NASは、arrowheadの複数のサブシステムが共通で使用する認証用のデータなどを格納している。1号機と2号機をActive-Active構成で運用しているが、1号機の障害発生時に2号機のみの運用へ自動で切り替える機能が正常に働かなかった。

 この影響で、本来はarrowheadのサブシステムの1つである「情報配信ゲートウエイ」を通じ、同日7時0分に送信すべき電文の送信ができなかった。別のサブシステムである「売買監視サーバー」や監視端末へのログインも不可能になるなど、NASの停止による影響はarrowheadを構成する複数のサブシステムに広がった。

 証券会社など外部に異変を通知したのは約1時間後の8時1分。さらに8時30分すぎに、午前9時からの取引を停止すると通知。8時54分には障害の影響が東証以外のシステムに波及しないよう、arrowheadと証券会社間の発注系経路を遮断。原因究明と復旧作業を進めたが、結局11時45分に終日売買停止を発表した。原因となったメモリーが載った基板を同日中に交換したうえでシステムを再起動し、翌10月2日午前9時から売買を再開した。

 その後の調査で、富士通が納入したNASのファームウエアの設定不備が大規模障害につながったことが判明した。2台構成のNASの1台で障害が発生しても、本来はもう1台のみの運用に自動で切り替えてarrowhead全体の運用に支障が出ない設計だった。

 しかし実際には、NASのファームウエアの切り替え用設定値に誤りがあり、メモリー故障に起因する障害パターンが発生した際はNASの冗長化が機能しなくなっていた。

図 arrowheadのシステム構成と障害の波及の経緯
図 arrowheadのシステム構成と障害の波及の経緯
設定値の誤りで、障害が起きたNASをフェイルオーバーできず(東京証券取引所の資料を基に日経コンピュータ作成、一部推定)
[画像のクリックで拡大表示]

 東証はarrowheadを2019年11月に刷新する際、事前のテストで2台のNASの死活監視を途絶えさせて、自動で切り替わることを確認していた。だがその際、今回の設定不備は見抜けなかった。設定作業そのものは富士通が実施していたという。東証と富士通は10月4日までにファームウエアの設定を修正したが、なぜNASのファームウエアの設定不備を見抜けなかったのかが今後の焦点となりそうだ。