PR

 一方で、「高信頼システムとしては仕組みが足りない」と指摘するアーキテクトもいた。日本有数のミッションクリティカルシステムをいくつも手掛けてきたこのアーキテクトは「ネットワーク機器の間欠故障は確かに厄介で頭が痛い」と認めつつ、「大規模システムであれば何度か経験する問題であり、高信頼性を追求するのであれば、複数手段での検知や切り替え手段、場合によっては手動での切り替え手順を持つべきだ」とした。

 「ミッションクリティカルであれば製品の潜在バグを見つけるテストを当然実施すべきだし、いくら製品を“叩い”ても、『故障シグナル』の機能だけに死活監視を依存する限り、その機能自体がSPOF(Single Point of Failure:単一障害点)になる」。今回、DBサーバーからの監視を加えた再発防止策は、複数経路での監視に当たるとこのアーキテクトは話す。間欠障害の検知には、業務部門の利用者と同じ経路、同じ操作でシステムの稼働状況を常時監視するような仕組みも有効と指摘している。

 障害対策・障害復旧でANAはよくやったのかそうでないのか。どの程度のコストを掛けて、どの程度の信頼性を、どういったアーキテクチャーで実現するのか。同じケースは一つとしてないが、自分の現場だったらどう振る舞えるのか。読者の皆さんはどう考えるだろうか。

■変更履歴
記事公開時、現行の国内線旅客システムの名称を「ANACore(エーエヌエーコア)」としていましたが、正しくは再構築前後でシステム名は変わらず「able-D(エーブルディ)」でした。ANACoreは「アナコア」と読み、現行システムの開発コード名でした。また1ページ目第7段落の「ユニシス技法」は「ユニシス技報」の誤りで、4ページ目第4段落のANAホールディングス社長の「片野氏」は「片野坂氏」の誤り、同ページ第6段落の「3月20日にANAが障害原因を公表した」とあるのは「3月30日にANAが障害原因を公表した」の誤りです。それぞれお詫びして訂正します。本文は修正済みです。 [2016/04/12 15:30]
■変更履歴
全日本空輸からの追加回答により、新たな事実が判明したため、一部の記述を変更しました。具体的には1ページ目第8段落、2ページ目第3段落と第4段落、第7段落、3ページ目第3段落と第4段落、第6段落です。 [2016/04/12 20:50]