

当事者が語る! トラブルからの脱出

目次
-
ネットも電話もつながらない 経年劣化で電源が故障
ある文化施設で大きなイベントが開催される日の朝、インターネットや電話が使えなくなった。機器を調べると、ONUのランプが消えていた。古いONUなので経年劣化による故障と判断。NTT西日本に交換を依頼すると、電源アダプターのみが故障していると分かった。
-
世界規模のネット障害が発生 ポリシーの誤りで経路が消失
世界規模でサービスを展開している米クラウドフレアで、全体のトラフィックが半分に落ち込むトラブルが発生した。原因は当時実施していたBGPポリシーの更新。BGPポリシーに誤りがあったため、大規模データセンターにあるLAN内への経路を通知しなくなってしまった。
-
IP電話がつながらない 共用部の光ケーブルが断線
自社の代表番号に社外からつながらなくなった。PBXの故障を疑ったが、レイヤー3スイッチの死活監視ログから、通信が途切れる不具合がネットワーク全体で発生していたことが判明。建物内の配線を疑いベンダーに調べてもらったところ、共用部の光ケーブルが断線していた。
-
SSL-VPNがつながらない MTUの不一致が原因か
顧客のセキュリティーアプライアンスを新機種に入れ替えたところ、SSL-VPN接続がつながりにくくなった。様々な対応策を実施したもののいずれでも解決できなかった。試行錯誤の末セキュリティーアプライアンスのMTUをクライアント側に合わせたところ、トラブルは解決した。
-
バッチ処理が終わらない パケット再送が頻発して遅延
サーバーのバッチ処理が時間内に終わらないとの相談が顧客から寄せられた。ログを調べるとバッチ処理に問題はなく、処理の開始時刻が遅くなっていた。さらに調べたところ、ルーターが原因でパケットの再送が頻発。これにより、サーバーにデータが到着するのが遅れていた。
-
無線LANがつながりにくい スイッチの設定ミスが顕在化
顧客から「無線LANがつながりにくい」との相談を受けた。調査の結果、端末からの特定の通信が、更改したばかりのコアスイッチで破棄されていることが分かった。さらに調べると、レイヤー3(L3)スイッチの設定が誤っていることが根本原因だと判明。設定を修正して解消した。
-
Web会議の音声が途切れる 原因はルーターの新機能
ある顧客から、Web会議システムに関するトラブルの調査を依頼された。音声や映像が途切れるという。問題を切り分けていった結果、インターネットにつながるルーターの「ポートセービング」という比較的新しい機能が原因だと判明。この機能をオフにすることで解決した。
-
電子メールが届かない 暗号化通信を開始できず
メールサービスの利用企業から、特定の相手からのメールが届かないという問い合わせが入った。メールサーバーに問題は見当たらなかった。詳しく調べたところ、通信経路途中のセキュリティーアプライアンスがSMTPのコマンドを改変している可能性が高いことが判明した。
-
集合住宅でネットトラブル 猛暑で管理会社の機器が故障
マンションの自室からインターネットに接続できなくなった。自室の配電盤を収容する箱の中に設置されていた、マンションの管理会社が所有するコンシューマー向けレイヤー2(L2)スイッチが、猛暑の影響で故障したためだ。入居者が自ら代替機を購入。機器を交換して解決した。
-
落雷でネットワークが不通に 2度にわたって機器が故障
ある会社のネットワークが、落雷の影響で2度不通になった。1度目は落雷で発生した過電流(雷サージ)が電源経由で侵入してネットワーク機器が故障。対策を施したものの約8年後、LANケーブル経由の雷サージにより再度故障した。LAN用の対策製品を導入して解決した。
-
サーバーの応答が遅くなる 冗長化でスイッチが高負荷に
ある顧客から、データセンターに設置したサーバーからの応答が遅くなっているとの報告があった。調査の結果、データセンターに設置したスイッチのCPU負荷が高まっていることが判明。サーバーの冗長化によりMACアドレスが正しく登録されず、フラッディングを繰り返していた。
-
SaaSの利用中に接続が切れる HTTP/2対応が原因
小売事業者向けSaaSにおいて、利用中に接続が切れるトラブルが発生した。プロキシーサーバー経由だと通信終了時にエラーが発生する場合がある。WebサーバーのHTTP/2対応が原因だと推測。HTTP/2の接続維持時間を延長してエラーの発生頻度を大幅に下げた。
-
ログインに時間がかかりすぎる 認証処理の実装が原因
ある顧客から、社内システムの調査に協力するよう依頼された。ログイン時に応答速度が極端に遅くなる場合があるという。調査の結果、システムの認証処理の実装が原因だと判明。高負荷時には認証サーバーの処理が追いつかなくなっていた。認証サーバーを増強して解決した。
-
無線LANでもループは生じる 防止機能への過信は禁物
ネットワークで発生するトラブルとしてまず思い浮かぶのは「ループ接続」だろう。ちょっとしたミスや勘違いでトラブルを起こしやすいうえ、影響はネットワーク全体に広がる。今回はこれまでの記事から、解決が難しかった3つの事例を厳選して紹介する。
-
最新OSだけが接続できない 原因は認証スイッチの証明書
社内ネットワークの一部の端末がインターネットに接続できなくなった。接続できないのはWindows 11搭載のパソコンだけだった。調査の結果、認証スイッチとの暗号通信が失敗していたことが判明。認証スイッチの電子証明書を更新してトラブルは解決した。
-
特定のサイトにアクセスできない 試行錯誤で設定ミスに気づく
IPv6対応のインターネット回線を導入した営業所で、特定のWebサイトにアクセスできないトラブルが発生した。調査の結果、IPv6に関連したトラブルと判断。試行錯誤の末、営業所のルーターやパソコンの設定を変更することでトラブルを解決した。
-
DCとの通信速度が大幅に低下 予想外のスイッチが故障
顧客のネットワークとデータセンター(DC)間の通信速度が大幅に低下した。DC内の機器やDCまでの経路の異常を疑うが問題はなかった。実は顧客の社内に設置したレイヤー3(L3)スイッチが故障して、異常なフレームを送出していた。L3スイッチを交換してトラブルを解消した。
-
サーバーにアクセスできない ケーブルが動物にかじられていた
ある顧客が、通信事業者のサーバーに専用線経由でアクセスできなくなった。光ファイバーの断線を疑い、同じケーブルの別の光ファイバーを使うようにしても復旧しなかった。実は、ケーブル自体がげっ歯類にかじられて損傷していた。別のケーブルを敷設してトラブルを解決した。
-
Webシステムの応答が遅い 原因はルーターの機能不足
ある企業から、Webシステムの応答が遅いので調査してほしいという依頼を受けた。通信事業者からレンタルしているルーターの設定ミスを見つけて対応したが、改善しなかった。調査を進めた結果、ルーターにフロー制御機能がないことが原因だと分かった。
-
インターネットに接続できない スイッチとケーブルが同時に故障
ある施設でインターネットに接続できなくなった。LANスイッチの故障を発見し、交換したが復旧しない。インテグレーターが調査した結果、LANスイッチ2つが故障し、LANケーブルまで破損していることが判明した。すべてを交換してトラブルは解消した。