近年、情報システムの大規模障害によって企業が経営責任を問われるケースが増えている。システム障害が大きな話題となるのは、かつて業務効率化のためのツールにすぎなかったITが、企業のビジネスそのものを実現するのに必須の存在になっているためだ。
IT技術(デジタル技術)によって従来のビジネスやサービスの在り方を根底から変える「デジタルトランスフォーメーション(DX)」を目指す企業も増えた。今や情報システムの安定運用は企業の存続や成長に欠かせない。言い換えればシステム障害発生時の対処の結果が、ビジネスの浮沈に関わることすらありえる。
回復性を重視したシステム設計が重要に
一方で、DX時代のシステム障害対応は以前よりも難しくなっている。近年のシステムはアーキテクチャーをはじめさまざまな面で複雑化しており、自社でコントロールできる範囲を越えて想定外のトラブルが発生する可能性があるためだ。
そのため、システム設計時に障害が起きないような堅固さだけを目指すのは現実的でない。いざ障害が起こった際に影響範囲を小さくし、早期の復旧をかなえるための「回復性(レジリエンシー)」の確保がより重要だ。高い回復性を実現するにはシステムそのものの設計だけでなく、障害発生時の手続きや対応に当たる担当者の心構えなどマネジメント面の体制整備も欠かせない。業務の現場や情報システム部門はもちろん、経営陣も主体的にシステム障害対策に取り組む必要がある。
そこでこの特集では回復性に着目しつつ、DX時代のシステム障害対応のポイントを5回に分けて解説する。今回はシステム障害の影響が大きくなり、障害対応の難度が上がっている背景を詳しく見ていこう。次回以降は危機対応計画の見直しなどマネジメント面で考慮すべきポイントや、可観測性・防御的実装などシステム設計時に盛り込むべき内容を紹介する予定だ。DXの実現を目指す企業システムでよく見られる課題を中心に取り上げるが、従来型のシステムにも共通する部分が少なくない。まだDXに取り組んでいない企業にも参考にしていただきたい。
DX時代のシステム障害、対策が難しいのは「分散化」が進んだから
システム障害対応の難度が上がっている大きな理由は「分散化」だ。今やシステムのさまざまな領域(レイヤー)で分散化が起きており、障害時に原因の切り分けや対策のハンドリングが複雑化する原因となっている。ここでは以下の3つのレイヤーに分けて、分散化の実態と課題を見ていこう。
● ビジネスプレーヤーの分散化
● 開発・運用組織の分散化