KDDIが2022年7月2日に起こした通信障害は大きな社会問題に発展した。「au」「UQモバイル」「povo」といった同社の携帯電話サービスだけでなく、同社回線を使う格安スマホ事業者のサービスも音声通話やデータ通信が利用しづらい状況に陥った。これらサービスをIoT(インターネット・オブ・シングズ)用途で活用している例も多く、影響は物流や自動車、気象、銀行、交通関連など多方面に及んだ。
携帯大手の大規模障害は近年だけでも、2018年12月のソフトバンク、2021年10月のNTTドコモ、今回のKDDIと相次いでいる。毎回、影響の大きさに驚かされる。今回も携帯インフラのもろさを改めて痛感すると同時に、今後は競争を超えた協調も必要なのではないかと感じた。
ドコモの教訓で対策していたが…
障害のきっかけとなったのは、ルーターの交換に伴うルート変更だった。この作業中にVoLTE(Voice over LTE)交換機で警告が発生。一部の音声通話が不通になっていることが判明し、切り戻しを実施した。音声通話の不通時間は約15分間だったが、これがVoLTE交換機の輻輳(ふくそう)を招いてしまった。
その後は悪夢のようだった。輻輳は信号接続要求やデータ/音声接続要求の流量制御を実施しても解消されず、加入者情報を管理するデータベースにまで波及した。この結果、加入者データベースのデータ不一致が起こり、この修正対処まで必要となった。7月4日には一部のVoLTE交換機(18台中の6台)から加入者データベースに対して不要な過剰信号を送出していたことも判明した。これでは復旧に長時間を要するのも当然である。
今回の障害でつくづく感じたのは、輻輳の恐ろしさだ。ドコモが2021年10月に起こした障害も輻輳の影響で長時間化した。最初は規模が小さくても、接続不可・再接続を何度も繰り返してアクセスが膨れ上がり、一定の規模を超えると手がつけられない状況に陥る。KDDIは今回、「再送(再接続)が起こってはじいているので(正確な規模は)分からないが、既定の量の数倍のアクセスが来ていたと思う」(技術統括本部長の吉村和幸専務)としており、これでは50%の流量制御をかけても通常より多いことになる。
輻輳の恐ろしさを熟知している携帯大手でさえ対処を見誤ると、簡単に大規模障害につながる。ドコモの2021年10月の障害では旧設備への切り戻しを実施し、20万台のIoT端末に位置登録を促した結果、輻輳を招いた。ドコモは当時、「この単位(20万台)であれば問題ないと考えていたが、輻輳が発生してしまった。これを抑えきれず、全国のネットワークに影響が広がった」としていた。
KDDIの障害については今後の調査結果を待ちたいが、やはり7月2日の早い時間帯に輻輳を抑えきれなかったのが痛かった。7月3日の記者会見では「不具合が発生した拠点に収容されている全ユーザーが他の拠点に接続を切り替えても大丈夫だというシミュレーションはできていた。実際には一斉に来ても大丈夫、あるいは一瞬輻輳するけど収束するというシミュレーションだった。そこが利かなかった。どういう動きがあったのかしっかりと検証しなければならない」(吉村専務)と話していたのが印象的だった。
KDDIは今回、ドコモの大規模障害の教訓を生かせなかった格好だが、実際に教訓を生かすのは容易ではない。「端末の接続要求が増えて大規模な輻輳を招き、復旧までに長時間かかった」という点でKDDIとドコモの事象は似ているものの、輻輳に至る経緯はさまざまだからだ。KDDIは2022年7月4日のオンライン記者会見で「(ドコモの大規模障害を受け)VoLTE交換機に輻輳が起こってもすぐに復旧可能な手順と設計を考えてきた。今回の障害が発生した時点でまさにその手順を踏んで直ちに対応したが、復旧できなかった」(吉村専務)と振り返った。