全3129文字
PR

 2022年7月2日未明に発生したKDDIの大規模通信障害は、40時間以上が経過した同月3日午後7時時点でも完全復旧宣言が出ていないという異例の事態となっている。最大約3915万回線の携帯電話が影響を受けたほか、同社回線を利用する物流や自動車、気象、銀行関連など幅広い企業のサービスにも影響が出ている。異例の大規模障害は、定期作業のわずかな不具合を起点として、雪崩のように影響が広がっていったことが分かった。国民生活を支える社会インフラである携帯電話が、わずかな想定の甘さで長時間、使えなくなるという怖さを改めて浮き彫りにした。

大規模通信障害が起きた経緯について説明するKDDI社長の高橋誠氏
[画像のクリックで拡大表示]
大規模通信障害が起きた経緯について説明するKDDI社長の高橋誠氏
(写真:日経クロステック)

KDDIの歴史上最大の障害、毎月実施するような定期作業が引き金に

 「我々(KDDI)の歴史上一番大きな障害。社会インフラを支え、安定したサービスを提供しなければならない通信事業者として深く反省している」

 KDDI社長の高橋誠氏は2022年7月3日午前に開いた緊急会見で、深々と頭を下げた。高橋氏は障害発生直後の同月2日午前7時前、本社に駆けつけて陣頭指揮を執ってきたという。その表情には疲労が色濃くにじんでいた。

 会見を開催したにもかかわらず、同社は完全復旧の見通しについて明言しなかった。高橋氏は「西日本地域は7月3日午前11時ごろに復旧作業が終了した。東日本地域は同日午後5時半ごろの復旧作業終了を目指している。復旧作業が完了しても利用者ごとに状況が異なる。時間のめどは明言できないが、最終的には完全復旧を宣言したい」と説明するにとどめた。

 長きにわたって影響が続くKDDIの大規模通信障害。緊急会見では、3つの不具合が連鎖して起きたことが長期化の原因であることが見えてきた。

3つの不具合が連鎖して起きたことが影響を長期にわたって拡大した
[画像のクリックで拡大表示]
3つの不具合が連鎖して起きたことが影響を長期にわたって拡大した
(写真:日経クロステック)

第1の不具合であるVoLTE交換機への輻輳が発生

 最初の不具合は、定期的なメンテナンス作業をきっかけに起きた。

 KDDIは2022年7月2日未明、メンテナンスの一環として、モバイルコア網と中継網をつなぐルーターに対して、旧製品から新製品へ交換する作業を実施した。このルーターは、スマホや携帯電話などの端末からの音声通話の呼を、音声通話用の交換機である「VoLTE交換機」へとルーティングする役割などを担う。

 この作業自体は、同じ機種を新旧入れ替える定期的な作業であり、「毎月実施するような作業」(KDDI取締役執行役員専務技術統括本部長の吉村和幸氏)という。

 切り替え作業後、新しいルーターによるルート変更をかけた同日午前1時35分にトラブルが発生する。一部の音声通話が約15分にわたって不通となってしまった。これは設備障害によって、音声トラフィックがVoLTE交換機へと正しくルーティングされなかったことによる。

最初のきっかけは新旧ルーターの入れ替え作業に伴うトラフィックのルート変更だった
[画像のクリックで拡大表示]
最初のきっかけは新旧ルーターの入れ替え作業に伴うトラフィックのルート変更だった
(写真:日経クロステック)

 KDDIはバックアップ含め、全国で18台のVoLTE交換機を保有しているという。これらのVoLTE交換機を全国6拠点で運用しており、今回の新旧ルーター入れ替えによって発生した音声通話の不通は、全国6拠点のうち1拠点のVoLTE交換機に影響した。

 約15分間の音声通信の不通を検知したKDDIは同日午前1時50分、旧ルーターへとルート変更する、いわゆる切り戻し作業を実施した。この切り戻し作業も、機器の入れ替えや障害発生時には普通によく使われる手段である。

 だが今回は、この切り戻し作業が最初の不具合の引き金となった。同作業によってスマホなどの端末からVoLTE交換機への再接続要求が集中し、同日午前2時17分にVoLTE交換機がトラフィックをさばき切れずに通信困難に陥る「輻輳(ふくそう)」状態に陥ったからだ。

切り戻し作業に伴って再接続要求が集中し、第1の不具合であるVoLTE交換機への輻輳が発生
[画像のクリックで拡大表示]
切り戻し作業に伴って再接続要求が集中し、第1の不具合であるVoLTE交換機への輻輳が発生
(写真:日経クロステック)

 VoLTE交換機には、電話をかけていない時でも50分に1回、端末から再接続があるという。VoLTE交換機は拠点内で冗長化しており、6拠点のうち1拠点で一斉に端末から再接続要求が来ても、「(輻輳は起きないという)シミュレーションも実施していた」(吉村氏)。

 それでも結果としては、VoLTE交換機に輻輳が発生してしまった。吉村氏は「切り戻し手順も正しかったが、時間は長かったと思っている。なぜ(輻輳という)不具合が起きたのか、まだ十分に検証できていない」と語るにとどめた。