全3882文字
PR

 2022年7月2日未明から続くKDDI通信障害は、発生から既に丸3日が経過した。同月4日午後に会見したKDDI取締役執行役員専務技術統括本部長の吉村和幸氏は「現時点で音声通話、データ通信はほぼ復旧している。ネットワークの状態を監視し、個人・法人ユーザーのサービス利用状況を確認した上で、7月5日の夕刻をめどに全面復旧したい」と話した。

「7月5日の夕刻をめどに全面復旧宣言をしたい」と語るKDDI取締役執行役員専務技術統括本部長の吉村和幸氏(右)
[画像のクリックで拡大表示]
「7月5日の夕刻をめどに全面復旧宣言をしたい」と語るKDDI取締役執行役員専務技術統括本部長の吉村和幸氏(右)
(出所:KDDIのオンライン会見をキャプチャー)

 一連の通信障害は、ルーターの新旧入れ替えにより音声トラフィックが15分間不通となったことを皮切りに、音声通話用のVoLTE(Voice over LTE)交換機や加入者データベース(DB)の輻輳(ふくそう)、加入者DBとVoLTE交換機の間のデータ不一致といった事象が連鎖したことで広がった。

 最大約3915万回線、社会インフラとして交通や物流、金融、気象などに使われる重要回線が、3日以上にわたってつながりにくくなるという今回の事態は、過去10年の間に日本で起きた通信障害としては最大規模であり、甚大な被害をもたらしたといえる。

 KDDIはなぜ障害を未然に防ぐことができなかったのか。起きた障害がなぜこれだけ大規模かつ長期化しているのか。もっと早く収束することはできなかったのか。

 原因究明中の部分は多いものの、KDDIが7月3日と同月4日に相次いで開催した会見から、今回の通信障害で何が起きていたのかが徐々に明らかになってきた。KDDIの対応は適切だったのか。現時点の情報から検証してみたい。

なぜ過剰な信号増を早く見つけられなかったのか

 前述したように一連の通信障害は、ルーターの新旧入れ替えに伴って15分間の一部音声通話の不通が見つかり、切り戻し作業によってルーティング先であるVoLTE交換機の負荷が高まったことで始まった。

 負荷が高まったVoLTE交換機は、全国6拠点のうちの1拠点に設置された設備だ。VoLTE交換機は全国で18台を運用しており、拠点間連携も可能という。能力的には十分余裕があった。

 VoLTE交換機の負荷が高まった理由は、切り戻し作業によってこの交換機がカバーするエリアにいるスマホなどの端末が一斉に再接続しようとしたからだ。

 とはいえ、端末からのVoLTE交換機への接続は「50分に1回」(吉村氏)という間隔である。該当するVoLTE交換機には「かなりの利用者が再接続した」(吉村氏)とはいえ、KDDIの全契約数ではない。「事前のシミュレーションでは一斉に再接続が来ても大丈夫という結果を得ていた」(同氏)という。通常なら起こらないはずの条件下で輻輳が起きたことになる。何か別の原因が潜んでいる可能性がある。

 7月4日の会見で、その原因ではないかとみられる新たな事実が判明した。見つかったのは「18台中6台のVoLTE交換機から加入者DBに対して、何度も繰り返されるような大量の信号を認識した。これによって加入者DBとVoLTE交換機の両方にアクセスが集中し、負荷が高くなる状況が継続していた」(吉村氏)という事象だ。6台のVoLTE交換機からの大量の信号は、切り戻し作業後に発生したとみられる。

7月4日にVoLTE交換機6台が過剰信号を発していたことを検知
[画像のクリックで拡大表示]
7月4日にVoLTE交換機6台が過剰信号を発していたことを検知
当該設備を切り離すことで、加入者DBとVoLTE交換機の負荷が軽減。「ほぼ復旧」状態となった(出所:KDDI)

 7月4日正午18分から午後1時18分にかけて、KDDIが6台のVoLTE交換機をシステムから切り離したところ、加入者DBと残りのVoLTE交換機ともに負荷が低減した。これによって輻輳回避のために適用していた無線設備に対する流量制限を同日午後2時51分に解除し、「ほぼ回復」の状況がもたらされた。

 この6台のVoLTE交換機が、何らかの不具合で過剰な信号を発していたことが、VoLTE交換機の輻輳と、加入者DBへのアクセス集中、そして加入者DBとVoLTE交換機の間のデータ不一致という不具合の連鎖をもたらした可能性がある。

 ただここで疑問が生じる。

 なぜ過剰な信号は、障害発生から2日以上も経過した7月4日の段階で発覚したのか。この過剰な信号の再送にいち早く対処することができれば、障害の広がりを抑えられたのではないか。

 この点について吉村氏は7月4日の会見で、「実際には輻輳制御を実施し、ある程度負荷が落ちついてきたからこそ、この問題が見えてきた。このような問題が早く分かるように、今後は知見を高めなければならない」と反省の弁を述べた。

 吉村氏は、「昔と比べてモバイルネットワークが複雑になっている。この点もしっかりと踏まえなければならない」と続ける。

 LTE導入当初、音声通話は回線交換網、データ通信はパケット網に分かれていた。しかし今ではVoLTEという形で、すべてをパケット網で処理するようになった。「さまざまなサービスが複合的になり、複雑な処理も増えている、復旧手順もそれに合わせてしっかりと考えていく必要がある」と吉村氏は語る。