全3633文字
PR
ある顧客から、データセンターに設置したサーバーからの応答が遅くなっているとの報告があった。調査の結果、データセンターに設置したスイッチのCPU負荷が高まっていることが判明。サーバーの冗長化によりMACアドレスが正しく登録されず、フラッディングを繰り返していた。

 サーバーからの応答が遅れているが、業務に支障が出るほどではない─。こうしたトラブルは原因を特定しにくく、解決が難しい。一時的にアクセスが集中したために応答が遅れる場合もあれば、ネットワーク機器に不具合が生じていることもある。ネットワーク管理者は正常な状態からの差異を把握して、トラブルの原因が回線にあるのか、ネットワーク機器にあるのか、それともサーバーにあるのかを切り分ける必要がある。

 インテックの白井 裕さんが遭遇したトラブルがまさにそうだった。業務継続には影響がない程度だったが、サーバーからの応答が遅くなった。利用者によってはフラストレーションを感じただろう。白井さんはどのように原因を特定し、解決に導いたのか。トラブル解決までの全容を見ていこう。

正常だった通信に遅延が発生

 トラブルの舞台になったのは、インテックの顧客であるA社である。2012年11月、白井さんのもとにA社の担当者から「業務に支障は出ていないが、サーバーからの応答が遅れている」という連絡があった。全国の拠点で若干応答が遅れているという。

 A社はデータセンター(DC)を借りて業務に必要なサーバーを設置し、拠点とDCを広域イーサネットで接続していた。また障害に備えてバックアップ回線を用意。広域イーサネットに不具合が発生すると、自動的にバックアップ回線を利用してDCにアクセスする仕組みを整えていた。

トラブル発生時のネットワーク構成
トラブル発生時のネットワーク構成
インテックの顧客であるA社はデータセンターにサーバーを設置して運用していた。インテックはネットワークの敷設や監視を担当していた。A社は各拠点を広域イーサネットで接続し、通信速度が低下すると拠点ごとにバックアップ回線(インターネットVPN)に切り替わるようにしていた。
[画像のクリックで拡大表示]

 これらのネットワークの敷設や管理・監視をインテックが担当。レイヤー3(L3)スイッチはインテックが管理していたが、それ以外のネットワーク機器やサーバーは別のインテグレーターが管理していた。報告を受けた白井さんは「何らかの理由でネットワーク機器に不具合が発生したのではないか」と考え、遠隔から調査を開始した。

ネットワークの問題と考えて調査を開始
ネットワークの問題と考えて調査を開始
A社の担当者から報告を受けた白井さんは、ネットワークに問題があると考えて調査を開始した。
[画像のクリックで拡大表示]

 まず調査したのは、DCに設置したL3スイッチである。トラブルは全国の拠点に及んでいたためだ。広域イーサネットとサーバーをつなぐL3スイッチに不具合が生じれば、すべての拠点で通信が遅れる可能性があると考えた。