2021年10月14日、携帯電話が全国的につながりにくくなる障害が起きた。4G/5Gは約12時間後に復旧したが、3Gの完全復旧まで29時間を要した。原因は、切り戻し作業時の見積もりの甘さというNTTドコモの人為的ミスだった。わずか20万台の端末再接続がきっかけで網全体が不安定な状態に陥った。1つの判断ミスが国民生活に多大な影響を及ぼす怖さを改めて浮き彫りにした。
「音声通話やデータ通信ができない」「コード決済が使えない」「圏内のはずなのにアンテナピクトがグレーアウトしている」──。2021年10月14日午後5時ごろからNTTドコモの携帯電話サービスが全国的につながりにくくなる障害が発生した。
同社によると、携帯電話サービスの利用に当たって必要な「位置登録」ができなかったユーザーは約200万人。音声通話(呼数)は前週比で15%減、パケット通信(通信量)は同4%減の影響があった。障害の影響規模を厳密に算出するのは難しく、もっと広い範囲で被害が出ていた可能性がある。
障害が起きたきっかけは、10月14日に実施した設備の切り替え工事だった。不具合が判明し、切り戻しの過程で判断ミスがあった。ネットワークが通信の再送で混雑する輻輳状態に陥り、4G/5Gサービスの復旧に約12時間を要した。3Gサービスを含めた完全復旧には29時間かかり、異例の大規模障害となった。
今や携帯電話は、音声通話だけでなく、データ通信機能を介して決済など様々なサービスを支える存在となった。そんな国民生活に欠かせない重要インフラがちょっとした判断ミスでまひ状態に陥る怖さを改めて浮き彫りにした。
20万台の再接続に耐えきれず
「設備の処理能力の見積もりが甘く、結果的に(大規模通信障害の)トリガーを引いてしまった」。ドコモが10月15日に開いたオンライン説明会で、引馬章裕サービス運営部長は障害の経緯をこう説明した。
同社によれば、今回の障害は10月14日に実施した設備の入れ替え工事をきっかけに起きた。携帯電話サービスでは、端末がどのエリアに在圏しているのかを網内の「加入者/位置情報サーバー」で逐次管理している。「HLR(ホームロケーションレジスター)」や「HSS(ホームサブスクライバーサーバー)」と呼ばれるものだ。
ドコモは10月14日午前0時から、IoT(インターネット・オブ・シングズ)サービス向けに用意したHLR/HSSを旧設備から新設備へと切り替える作業を実施した。このHLR/HSSは主にタクシーの電子決済や自動販売機などに組み込まれているIoT回線の在圏情報を管理するもので、一般的な端末の在圏情報を収容するHLR/HSSとは別物になる。仮想化に対応した新設備を導入して性能を高める狙いだった。全国2カ所に配備した旧設備を、新設備として2カ所、バックアップとしてさらに2カ所の構成に切り替える作業を始めた。
ところが、新設備に切り替えた後で不具合が判明した。海外のIoT端末がローミングを介して新設備に位置登録した際、ドコモ側で正常に受け付けられないというものだ。同社の顧客にも影響を及ぼすため、旧設備へ切り戻すことにした。不具合の原因は調査中で、「海外の事業者から届く信号に想定しないパラメーターが含まれているといった事象を把握している」(引馬部長)とする。
旧設備への切り戻しを始めたのは10月14日午前7時26分。作業そのものは順調に進んだが、最終段階で判断を誤った。IoT端末の位置情報は新設備に残ったままのため、旧設備への位置登録を促す必要がある。そこで午後4時36分から、まず20万台のIoT端末に対して位置登録を促したところ、これに旧設備の処理能力が耐えきれなかった。
不具合発生時の切り戻し手順としては事前に準備した通りだった。「すべてを一斉に戻すのではなく、いくつかのグループに分けて実施していた。旧設備の処理能力を見積もり、この単位(20万台)であれば問題ないと考えていたが、輻輳が発生してしまった。これを抑えきれず、全国のネットワークに影響が広がった」(ネットワーク本部長の小林宏常務執行役員)。