2021年10月14日午後5時から翌15日にかけて、NTTドコモの携帯電話回線が全国的につながりにくくなった大規模通信障害。その原因となったのは、設備の切り替え工事に伴う見積もりの甘さという人為的なミスだった。今回のNTTドコモの通信障害は、音声通話からスマホ決済、電子チケットなど、今や国民生活に欠かせなくなった携帯電話のインフラが、わずかなミスによって多大な影響を与えるという怖さを改めて浮き彫りにした。
わずか20万のIoT端末の一斉再接続が、ドコモ全体の網を不安定に
「設備の処理能力の見積もりが甘く、結果的に(大規模通信障害の)トリガーを引いてしまった」――。NTTドコモ サービス運営部長の引馬章裕氏は、21年10月15日に開いた通信障害についてのオンライン会見にて、このように謝罪した。
NTTドコモの携帯電話回線で14日に発生した大規模通信障害は、障害発生から一部復旧(4G/5G回線)に至るまで実に12時間近くという、近年では異例の時間を要した。影響規模についても、位置登録できなかった利用者だけで約200万ユーザーに上る。ネットワークの混雑でつながらなかった利用者については、同社では算出が難しいとしており、影響範囲はさらに拡大する可能性がある。
国民生活に多大な影響を及ぼしたこの障害は、実はNTTドコモのネットワークのほんのわずかな設備の入れ替え工事をきっかけに始まった。
携帯電話サービスでは、端末がどのエリアに在圏しているのかをコアネットワーク内の「加入者/位置情報サーバー」で逐次管理している。4Gでは「HSS(Home Subscriber Server)」と呼ぶ設備が該当する。
NTTドコモは14日未明、IoT回線向けに用意したHSSを、旧設備から新設備へと切り替える作業を実施した。このHSSは、主にタクシーの電子決済や自動販売機などに組み込まれているIoT回線を管理する設備であり、一般的な利用者の端末を収容するHSSとは別物という。切り替え作業は、新たに仮想化対応のHSSを導入することで、より性能向上を図ることを目的にしていた。14日未明に、全国2カ所に配備した旧設備のHSSを、新設備として2カ所、バックアップとしてさらに2カ所、切り替える作業を始めた。
HSSを新設備へ順次切り替える中で不具合が起きた。新設備のHSSでは、海外ローミングを受けられないという不具合が判明したのだ。そこで14日午前7時26分、「いったん旧設備へ戻す作業を実施した」(引馬氏)。新設備から旧設備へ切り戻す作業は、旧設備のHSSの処理能力を見積もって「IoT端末を20万回線ほどのグループに小分けして、切り戻し作業を実施した」(同氏)という。
HSSを旧設備に切り戻したとはいえ、IoT端末の位置情報は新設備のHSSに残ったままだ。そこで14日午後4時36分、20万回線ごとのIoT端末に対し、一斉に旧設備のHSSへと位置情報の登録を促す措置を実施した。
不具合発生時の切り戻し手順としては事前に準備した通りだった。しかし結果的に20万回線のIoT端末の信号集中に、旧設備のHSSの処理能力が耐えられなかった。これが大規模通信障害のトリガーを引いてしまった。