PR
社内にある一部のパソコンがネットワークにつながらなくなった。冗長化しているネットワーク機器(コアスイッチ)のうちの1台の電源を落とすとつながるようになるため、コアスイッチの故障を疑った。しかし「真犯人」は別にいた。

 ネットワークを構成している機器はすべてつながっており、相互に影響し合っている。このため、ある機器が不調に陥ったとき、不調の原因がその機器自体ではなく他の機器に存在する場合もある。

 今回取り上げるのはそんなトラブルの典型例だ。コアスイッチの負荷が大幅に高まり、一部のパソコンがネットワークにつながらなくなった。しかし、コアスイッチ自体には問題はなかった。

DHCPサーバーの異常がトラブルの前兆

 トラブルに遭遇したのは、インターネット関連の事業を手掛けるデジタルガレージだ。同社のネットワークの特徴は、徹底した冗長化が施されている点だ。

トラブルが発生したときのデジタルガレージのネットワーク構成
トラブルが発生したときのデジタルガレージのネットワーク構成
[画像のクリックで拡大表示]

 社内LANをつかさどるコアスイッチは、スタック機能を利用して2重化されている。そこからルーター経由でデータセンターに接続し、ファイアウオール経由でインターネットに接続している。コアスイッチとレイヤー2スイッチを介してつながっている各種サーバーもすべて2重化されている。

 同社のオフィスはビルの5階および9~12階に位置しており、コアスイッチと各階のフロアスイッチの間を光ファイバーで接続している。フロアスイッチからはアクセススイッチ経由でパソコンがつながっている。

 コアスイッチと同様に、すべてのスイッチが2重化されており、経路も多重化されている。これにより、単一の機器やLANケーブルにトラブルが起こっても通信を継続できる。また、STP(Spanning Tree Protocol)を設定してループの発生も防いでいる。

 トラブルが起こったのは、2018年の大型連休の最中である4月30日だった。最初に異常に気づいたのは休日出勤していたワーキング・エンゲージメント部の部長だ。同日の9時ごろにDHCPサーバーから「スタンバイ機に切り替わった」というアラートメールが送られてきた。

 しばらくすると経理部の社員が出社してきたが、その社員のパソコンがネットワークにつながらなくなっていた。

DHCPサーバーを再起動してもトラブルは解決せず
DHCPサーバーを再起動してもトラブルは解決せず
[画像のクリックで拡大表示]