PR

 スイッチも冗長構成を採っていた。本来は「スイッチが故障すると『故障シグナル』を発信し、予備機に自動的に切り替わる設計だった」(ANA)。だが、今回は故障しているにも関わらず、故障シグナルを発信しなかった。故障シグナルとはANAによれば「SNMP(Simple Network Management Protocol)によるメッセージ通知」という。これを運用監視システムで受け取っていた。

 故障内容は厄介だった。「完全に停止したわけでなく、動作が不安定になった」(ANA広報)という“半死”の状態だったのだ。稼働開始から約3年、スイッチが故障により自動的に切り替わったことは一度もないという。

 スイッチの不具合に絞り込んだ時点でANAは代替機を取り寄せた。故障機と予備機、代替機は「同一型番、同一ファームウエア」(ANA)だったという。代替機を取り寄せた理由をANAは「念のためスイッチの健全性を確認するため」と説明する。予備機はオンライン状態で稼働しており、「事前(の健全性の)確認ができない状況だった」(ANA)。

 午後0時46分には予約発券業務を、午後8時10分にはWeb予約やWebサービスを復旧させつつ、並行して代替機の健全性を確認し、翌3月23日午前1時14分に故障機と代替機を「推定交換」(ANA)。その後、「本番環境と同等の作りにしてあるテスト環境にスイッチを持ち込んでテストしたところ、異常が再現した。シスコが原因を特定した」(ANA広報)。午前3時5分にはDBサーバーを4台構成に戻し、午前4時14分には他社接続など全サービスを復旧した。

 障害検知から全復旧まで24時間30分で済ませただけでなく、その翌日3月24日には再発防止策を打つ。「スイッチが故障シグナルを出さない場合でもDBサーバーからスイッチ故障を検知できるよう改善した」(ANA)。

1年に及ぶ製品のバグ出しテストをすり抜ける

 ANACoreで使っていたCatalyst 4948Eはなぜ「故障シグナル」を発信しなかったのか。ANA広報によれば4月11日時点でもシスコで検証中という。「世界初の事象であり、機器固有の問題である可能性が高いという報告を受けている」と明かす。ANAはそれ以上の見解を示さないが、コメントからは今回使っていたスイッチのみに生じた問題とも読み取れる。同スイッチは2010年6月の発売開始以降、世界で4万3000台、うち日本で8700台を販売しているという。

 今回の障害は2013年2月にANACoreを稼働して以来、初めての大きなトラブル。ANACoreの開発ベンダーは日本ユニシスである。ANAは国内旅客システムを、1978年稼働の「RESANA」、1988年稼働の旧「able-D」と、米ユニシスのメインフレーム上でFortranで構築したシステムで稼働させ、日本ユニシスが構築を担当してきた。ANACoreの構築プロジェクトが始まったのは10年前、2006年4月のこと。「オープンシステムプラットフォームの環境でメインフレームと同等のサービスレベルを実現すること」(日本ユニシス)をゴールとした。

 ANACoreのプロジェクトが始まった翌年の2007年と翌々年の2008年、大規模なシステム障害が起こる。2007年5月には約7万9300人に、2008年9月には約6万8000人に影響が及んだ。2007年5月に発生した大規模なシステム障害時もシスコのスイッチ不具合が原因だった(関連記事:【会見詳報】ANA障害の原因判明、「世界4例のスイッチ故障がきっかけ、対応も遅れた」)。