全3837文字
PR

 KDDIは2022年7月29日、同月2日未明に起こした大規模通信障害の原因と再発防止策を発表した。不具合の連鎖を生んだ障害の発端は、手順書の取り違えという単純ミスであることが明らかになった。KDDIが公表した原因と再発防止策からは、同社のネットワーク運用ノウハウが不十分であったことも見えてきた。KDDIの障害を教訓とし、業界全体で社会インフラ化した通信を、強靭(きょうじん)にしていく取り組みが求められる。

7月2日に発生した通信障害の原因と再発防止策について説明する、KDDI社長の高橋誠氏
[画像のクリックで拡大表示]
7月2日に発生した通信障害の原因と再発防止策について説明する、KDDI社長の高橋誠氏
(写真:日経クロステック)

発端は手順書の新旧取り違え

 「誤設定に起因する考慮不足だった。再発防止策の徹底を図り、サービスの安定的な運用に向けて、全力を挙げて取り組む」

 2022年7月29日の発表会見に登壇したKDDI社長の高橋誠氏は、同月2日未明に発生した大規模通信障害の反省を述べた。同社は約款に基づく基本料金返金に加え、沖縄セルラー電話を含めた約3600万人の利用者に対して200円(税抜き)をおわびとして返金する。

 一連の通信障害は、中継ルーターの新旧入れ替えに伴って音声トラフィックが15分間不通となったことを皮切りに発生した。音声通話用のVoLTE(Voice over LTE)交換機や加入者データベース(DB)にアクセスが集中する輻輳(ふくそう)が発生し、さらに、加入者DBとVoLTE交換機の間のデータ不一致といった事象が連鎖したことで大規模・長期化した。

 KDDIはこの日の会見で、最初の発端である中継ルーターの設定ミスは、「新旧2つの手順書のうち、誤って古い環境用の手順書を使ってしまったことによる指示ミス」(KDDI取締役執行役員専務技術統括本部長の吉村和幸氏)であることを明らかにした。

 中継ルーターは、全国拠点を結ぶ中継網とコアネットワークを接続する設備だ。古い環境用の手順書を新しい環境に使ってしまったことで、上り方向の経路のみが正しく切り替わり、下り方向の経路切り替えに失敗してしまった。

 下り経路が不通になったことで、端末からの位置情報の再登録要求と、ネットワーク内各ノードからの制御信号の再送要求がVoLTE交換機に殺到。通常の約7倍のアクセス集中が発生し、「1分程度でVoLTE交換機が輻輳(ふくそう)してしまった」(高橋氏)という。

 新旧の手順書は、いずれもそれぞれテスト環境と本番環境で試験済みだったという。新旧設備への適用さえ間違えなければ、障害は起きなかった。吉村氏は「手順を進めるには承認作業が必要だが、手順書の中身については口頭の確認だけにとどまっていた」と、承認方法が不十分だった点を反省する。

KDDIが公表した再発防止策
[画像のクリックで拡大表示]
KDDIが公表した再発防止策
作業承認手法の見直しや、輻輳制御の設計見直しなどを再発防止策として掲げた(出所:KDDI)

 KDDIは同月14日、再発防止策として作業手順書管理ルールと作業承認手法の見直しを実施したという。メンテナンス作業が大規模障害につながるような想定もしていなかったことから、作業リスク評価の見直しも同月22日に実施した。

輻輳についてのリスクマネジメントが不十分

 KDDI大規模障害の発端となった新旧手順書の間違えは、どこにでもあるようなヒューマンエラーだ。ミスをできるだけ減らす仕組みはもちろん必要だが、それ以上に、ミスの影響を最小限にとどめ、いち早く復旧するような仕組みの方が重要になる。どんなに仕組みを厳重にしたところで、ミスをゼロにすることは難しいからだ。

 KDDIはささいなミスを輻輳の連鎖につなげてしまった。高橋氏は「特殊なネットワーク状態での輻輳制御が十分に考慮されていなかった。複雑な輻輳状況を復旧させる手順が確立されていなかった」と反省の弁を述べる。輻輳についてのリスクマネジメントが不十分だった点が、障害の大規模・長期化につながった。

 特に大規模・長期化に影響を及ぼしたのが、障害から2日が経過した同年7月4日になって初めて見つかった、18台中6台のVoLTE交換機から加入者DBへと過剰な制御信号が送出されていた件だ。

大規模・長期化の原因となったVoLTE交換機6台からの過剰な信号送出
[画像のクリックで拡大表示]
大規模・長期化の原因となったVoLTE交換機6台からの過剰な信号送出
(写真:日経クロステック)

 関係者によると、VoLTE交換機6台からの過剰な制御信号の送出は、当該設備のベンダーが同日に復旧現場へと合流したこともあって判明したという。輻輳状態に陥ったVoLTE交換機を正常状態に戻すためには、順番にリセットしていく必要性がある。その際、定期的につくられるバックアップファイルを利用するが、6台のVoLTE交換機が利用したバックアップファイルに異常があったという。これが過剰な信号送出の原因だった。

 この問題をもっと早く検出・対処できていれば、障害の大規模・長期化を防げただろう。問題の検出が遅れたのは、仮想化やソフトウエア化を含めて複雑化するモバイルネットワークにおいて、ベンダーによる設備のブラックボックス化が進んだ影響なのか。それともKDDIのノウハウが単純に不足していたからなのか。今後の教訓のためにも、より詳しい検証が求められる。

 KDDIは大規模・長期化をもたらした輻輳対策が不十分だったとし、この点についても再発防止策を発表した。具体的にはVoLTE交換機の詳細な輻輳検知ツール開発を同月28日までに実施。輻輳制御の設計見直しについても同年8月末までに点検完了後、新たな計画を策定するという。

 輻輳発生時の復旧手順についても同年7月11日までに見直した。VoLTE交換機の輻輳解消ツールの開発についても同年8月末までに実施するという。