全3062文字
PR

NTT西日本は2022年8月25日、大規模な通信障害を引き起こした。30府県の最大211万回線でインターネット接続に支障を来した。発端は保守ネットワークにおける装置の収容数が推奨値を超えたことだった。1台の光伝送装置で動作が不安定となり、内部データベースの同期に失敗。ソフトウエアの不具合で装置が初期化され、顧客の通信にまで影響が及んだ。

 「本当にご迷惑をおかけして、申し訳ございませんでした」。2022年9月30日、NTT西日本の森林正彰社長は8月25日に引き起こした通信障害に関して総務省から行政指導の文書を受け取り、記者団を前にこう陳謝した。

 8月25日の通信障害は、NTT西日本の幅広い顧客に影響を与えた。「フレッツ光ネクスト」などの利用者が最大6時間近くにわたってインターネットに接続しづらくなった。同社は最大211万回線が影響を受けたと推計する。兵庫県や京都府など12府県の最大63万回線に関しては48分間にわたってネットに接続できない状況に陥った。SNS(交流サイト)上には「全く仕事にならない」といった声があふれた。

 総務省はNTT西日本に対して立ち入り検査を実施。今回の障害が電気通信事業法上の「重大な事故」に該当するとして、行政指導に踏み切り、再発防止策などの実施状況を定期的に報告するよう求めた。同社も通信障害を受けて、森林社長が月額報酬の2割を1カ月分、自主返納することを明らかにした。通信設備を担当する役員2人も月額報酬の1割を1カ月分それぞれ自主返納する。

保守網の収容数が推奨値を超過

 通信障害は8月25日午前8時57分、光伝送装置を遠隔監視・制御するための保守ネットワークで起きた。NTT西日本は主信号(顧客の通信)をやり取りするNGN(次世代ネットワーク)とは別に、保守用のIPネットワークを構成している。

 異変のきっかけは、保守ネットワークにおける光伝送装置の収容数が推奨値を超過したことだった。NTT西日本の釡江卓也設備本部サービスエンジニアリング部ネットワーク設備部門長は「推奨値に対して10%程度上回っていた」と打ち明ける。これに伴い、ルーティング(プロトコルはOSPF=Open Shortest Path First)の再計算時にCPUの負荷が上昇。1台の光伝送装置において、監視制御を担うCPU同士の通信が不安定になり、内部データベースの同期が取れなくなった。

図 NTT西日本で発生した通信障害のメカニズム
図 NTT西日本で発生した通信障害のメカニズム
保守網における装置収容数が推奨値を超過し、ソフト不具合が表面化(出所:NTT西日本の資料を基に日経コンピュータ作成)
[画像のクリックで拡大表示]

 同装置内で監視制御をつかさどるCPUは二重化しており、設定情報などをやり取りしている。この同期失敗が思わぬ事態を引き起こす。CPUはデータベースが空だと誤認識したうえで、データベースを勝手に初期化し、工場出荷状態に戻してしまったのだ。しかも、保守ネットワークにとどまらず、主信号に関わる設定まで初期化してしまった。「全体が初期化された状態になり、伝送路自体がダウンしてしまった」(釡江氏)。この結果、12府県の一部顧客のネット接続が途絶えた。

 ここまでが障害発生のメカニズムだが、3つの疑問がわく。1つ目は保守ネットワークにおける装置収容数の超過がなぜ見過ごされたのかという点だ。NTT西日本によると、推奨値の超過は後から判明したという。釡江氏は「メーカー側ときちんと連携できていなかったという反省がある」と語る。同社は機密情報に当たるとして、装置のメーカーを明らかにしていない。

 2つ目はデータベースの同期失敗がなぜ初期化につながったのかだ。NTT西日本は内蔵ソフトウエアの不具合に起因したものと判断している。たとえデータベースの同期に失敗しても、一方のデータベースの情報は残したり、同期を一旦停止したりする動作が正しい仕様だったとの認識を示す。

 釡江氏は「(ソフトの不具合を事前に)把握することは難しかった」としながらも、「装置を導入するに当たって、我々として確認が取れなかった」と認める。今回のソフト不具合が表面化したのは、NTT西日本として初めてだった。

 最後が保守ネットワークのトラブルがなぜNGNにまで波及し、顧客サービスに影響を与えたかだ。これは前述の初期化プロセスが保守ネットワークにとどまらず、主信号に関わる設定情報にまで及んだために発生した。釡江氏はこの挙動についても「(ソフトの)不具合としか言いようがない」としつつ、「NGNと保守網は独立してつくられておくべきだった」と話した。