かつて業務効率化のためのツールにすぎなかったITが企業のビジネスそのものに欠かせなくなった昨今、システム障害発生時の対応の是非は経営の浮沈にも関わる。一方、アーキテクチャーなどが複雑化した今どきのシステムでは、障害対応の難易度が上がっている。これからは障害を未然に防ぐ堅固さだけでなく、障害発生後に影響範囲を最小限に抑え、早期復旧をかなえる「回復性(レジリエンシー)」の確保がより重要だ。この特集ではマネジメントと技術の両面から、回復性の高いシステムをどのように実現すべきか解説する。

特集
「レジリエンシー」でシステム障害に備える
目次
-
システム障害の影響を軽減、防御的実装と回復性をかなえる10個のポイント
分散型かつクラウドネーティブな近年の情報システムでは、ネットワークや他社提供のAPIなど、自社ではコントロールできない部分で障害が起こる可能性がある。そのため「いずれどこかのタイミングで壊れる」前提で、一か所の障害が他に連鎖しないような防御的実装が必要だ。ここでは防御的実装を実現する5つのポイント…
-
分散システムの障害対策に必須、「可観測性」を実現する4機能とは
分散化によって複雑になった近年の情報システムでは従来に比べ、障害発生時の原因追及や復旧までのコントロールが難しい。ログなどの従来手法に加え、可観測性(オブザーバビリティー)を重視した新たな監視手法が必要となる。
-
システム障害時に「機能しないIT-BCPあるある」、5つの落とし穴とその対策
システム障害発生時に適正な意思決定と迅速なシステム復旧を実現するためには、IT-BCPの計画書作成や訓練の実施が欠かせない。作ったものの、実際の障害の渦中ではうまく機能しないIT-BCPもある。こうした問題を避けるためのポイントを見ていこう。
-
システム障害の大敵、適切な意思決定を阻む8つの「心理的バイアス」と回避策
複雑さを増す近年のシステムでは、いずれ障害が起こる前提で回復性(レジリエンシー)をも重視した設計・運用をするのが重要だ。高い回復性を実現するには、障害発生時の手続きの整備や担当者の心理面のサポートも必要となる。障害発生時に注意すべき、意思決定を阻む心理的バイアスとその回避策を知っておこう。
-
企業を揺るがす大規模システム障害、「分散化」への対応が成否を分ける
ITが企業のビジネスそのものを実現するのに必須の存在になりつつある昨今、システム障害の影響は拡大し、経営の浮沈にも関わるようになった。その一方、システム障害対応の難度は年々上昇している。システムの複雑化・分散化が障害のハンドリングを難しくしているのだ。