PR

 本来のゴールと発生した障害を踏まえ、ANAと日本ユニシスはANACore構築に当たり、製品に潜む不具合のたたき出しに注力していた。インフラ部分の製品テストを1年にわたって実施し、複数製品から30個以上の潜在的な不具合を発見したという。ANAによればこの製品テスト時には今回故障したCatalyst 4948Eを使っており、「スイッチは15項目にわたってテストした」という。さらにCatalyst 4948Eの保守サポートは2018年に終わることもあり、既に機器の更新計画も立てていた。

 実はCatalyst 4948Eは当初想定の機器では無かった。設計時はCatalyst 4948Eと同じく1000Mbpsの処理性能を持つ下位機のCatalyst 2960を使う予定だった。日本ユニシスはベンチマークでインターコネクトのトラフィックが最大で数百Mbpsになると分かったため、これを最大100Mbpsに抑えるよう、便名や操作端末などによって処理するDBサーバーを事前に指定する工夫を施していた。だが、事前テストでDBサーバーの起動時に遅延する事象が見られたという。

 そこでCatalyst 2960に加え、Catalyst 3750とCatalyst 4948EでDBサーバーの台数を増やしながら性能テストした結果、Catalyst 2960はDBサーバーが3台以上になるとインターコネクトで使うUDPパケットの処理能力が極端に低下することが分かった。これによりANACoreで使うスイッチをCatalyst 4948Eに決めた。「単位時間のパケット処理能力はメーカーが公表していない。機器選定の検証段階で確認する重要性が分かった」(日本ユニシス)。

ANAは「よくやった」のか

 ANAホールディングスの片野坂真哉社長は2016年4月1日、ANAグループの入社式でこう話した。「全ての関係する役職員が全力で対応と復旧にあたりましたが、多くのお客様にご迷惑をおかけし、厳しいお叱りをたくさん頂戴しました。原因を究明し、再発防止策をとりましたが、お客様の揺らいだ信頼を回復するため、引き続き全力を挙げていきます」――。片野坂氏は今回のシステムトラブルで1カ月20%の報酬を自主返上している。

 今回のトラブルでANAは「3億6000万円の逸失収入が発生した」(ANA広報)。日本ユニシスに対し、損害賠償請求を検討している(関連記事:ANA、システム障害で日本ユニシスへの損害賠償検討)。ANACoreの瑕疵担保責任期間は「稼働後1年であり、既に期間は過ぎている」とした上で、ANA広報は4月11日時点で「損害賠償の根拠は日本ユニシスとの契約に基づくものであり、結論を出す時期も含めて現在検討中」と話す。

 3月30日にANAが障害原因を公表したニュースには多くの反響があった。記者には「ANAの障害対応は称賛に値する」という識者からのメールが届き、ニュースに対するソーシャルメディアの反応を見ても障害の原因究明の早さや復旧までの早さに驚き、称賛する声が多かったように思えた。

 スイッチの「世界初のバグ」を“踏み抜いた”ANAの不運に同情する声や、手作業で搭乗券を発行できる訓練を積んでいるというBCP(事業継続計画)の出来の良さを褒める声もあった。「年1回のeラーニングや着任時の座学などを通して、全空港の旅客係員全員がシステムを使わずに対応する訓練を最低1回は受講することを義務付けている」(ANA広報)。

 記者も障害当日に取材しながら復旧の早さに驚き、原因公表が早かったことにも驚いた。「ANACoreのプロジェクトはコスト面で決して順風満帆ではなかった」。記者は過去に日本ユニシス幹部に聞いたことがあるものの、現場ではミッションクリティカルなシステムを運営する責任をステークホルダーが十分認識し、かつ過去の障害を踏まえて、障害対応手順を十分整備していたことがうかがえた。