PR

トラブルの原因として、スイッチ/ルーターのポートの挙動によるものが昔も今も少なくない。特に気を付けたいのが、故障などで機器を交換したとき。リンクアップ状態が以前のものと違ったり、ポート動作の不整合があったりするなど、想定外の挙動を示すことがある。運用手順や機器設定の見直しで回避したい。

 企業ネットワークに欠かせないスイッチやルーターの分野では、より高速で可用性に優れた新製品が次々と登場している。しかしながらネットワークトラブルの原因を探ると、相も変わらずスイッチやルーターのポートによるものが少なくない。今回は、予期しないポートの挙動が元でトラブルにつながった事例を紹介する。

障害復旧後の切り戻し時にトラブル

 A社のネットワークは、機器と回線がともに冗長化され、単一の障害では通信が止まらない設計になっている。ある日、業務サーバーAを収容しているL2(レイヤー2)スイッチAに障害が発生した。通信経路が自動的に待機系へと切り替わり、数秒後にネットワークが復旧した。ここまでは設計通りにうまくいった。

 A社からの連絡を受け、保守を担当するX社のSEが現地で状況確認を行った。するとL2スイッチにハード障害が見付かった。そこで交換用の機器を急ぎ手配した。

 X社の担当SEは、「機器の交換に伴って通信経路が現用系に切り戻り、その間に数秒の通信断が発生する」ことをA社に説明。相談の結果、復旧作業を通常営業日の昼間に実施することにした。ところが作業当日、担当者が新しいL2スイッチに交換し、ケーブルを元通りに接続し、電源を入れたところ、想定外の長い通信断が発生した。この障害は約1分後に自然復旧したものの、業務が一時的に停止してしまうという大きなトラブルにつながった。

 まずは機器の個別障害を疑い、交換したL2スイッチを調べてみた。するとこのL2スイッチは電源スイッチをオンにした後、すぐに全ポートのリンクランプが点灯し、その状態が1分近く継続していた(図1)。

図1●機器交換で想定外の長い通信断が発生<br>A社では機器、回線ともに冗長化されている。故障時の経路切り替えはうまくいったが、それに伴う機器交換では想定外の通信停止が発生してしまった。
図1●機器交換で想定外の長い通信断が発生
A社では機器、回線ともに冗長化されている。故障時の経路切り替えはうまくいったが、それに伴う機器交換では想定外の通信停止が発生してしまった。
[画像のクリックで拡大表示]

 さらに詳しく調査してみると、このトラブルの原因は次のようなものだった。このL2スイッチは、起動時の自己診断テストを実施している間、すべてのポートをリンクアップ状態にする仕様になっていた。当然、この間は起動途中であるため、まだ通信はできない。にもかかわらず対向する機器(A社のケースではルーターA)は、接続しているポートがリンクアップしたので、L2スイッチAが復旧したと判断。通信経路を現用系に切り戻し、起動中のL2スイッチAに向けてデータ送信を開始してしまった。自己診断テストが終了するまでこれらのデータは破棄されてしまい、それが今回の予想外に長い通信断の原因だった。