PR

山田 英史氏 ディアイティ 技術部長
森 勝氏 サイバーソリューション ソリューション推進室

ルーターの応答時間の監視で原因特定

 A社は次に,ネットワークの遅延が原因ではないかと推測した。パケットの遅延があまりにも大きいと,TCP処理がタイムアウトを起こして,コネクションが切れる場合があるからだ。

図2 A社はサーバーとルーターの応答時間を監視することにして障害の原因を突き止めた
A社は,生産管理サーバーと,大阪本社および神戸工場のルーターに対してpingを使って応答時間を監視するようにした。すると,神戸のルーターとサーバーの応答時間が1000ミリ秒を超える現象が同時に発生した。本社側のルーターは正常だった。専用線とDSU,ルーターのいずれかに原因があると判明,通信事業者やメーカーに調査を依頼し,DSUを交換することで解決した。
 そこでA社は,生産管理サーバーへの接続性だけでなく,pingの応答時間を常時監視するように運用方法を変更。応答時間が1000ミリ秒を超えたら担当者に警告メールを送信する仕組みにした。

 3日後,またユーザーからクレームが到着。しかし,警告メールは届いていなかった。ネットワークの遅延が原因ではなかったのである。

 そこで次に,生産管理サーバーだけでなく,神戸工場側のルーターと本社のルーターにもpingを送り,応答時間を計るようにした。サーバーの監視と同様,応答時間が1000ミリ秒を超えたら警告メールを出す。

 4日後,神戸工場のルーターの応答時間が1000ミリ秒を超えたことを示す警告メールが届いた。本社のルーターのpingの応答時間は10ミリ秒以下と速かったが,神戸工場のルーターの応答時間が異常に長かった。生産管理サーバーを調査すると,以前と同じくTCPコネクションが切断されていることが判明。すぐにアプリケーションを再起動して復旧させた。

 これで,原因の特定は進んだ(図2[拡大表示])。専用線部分か神戸工場側のルーター,→DSU,もしくは生産管理サーバーのいずれかに原因があるということだ。A社は,専用線を提供している通信事業者に,DSUと専用線部分の調査を依頼。通信事業者は,専用線部分には異常はないと考え,A社のDSUを交換することになった。

 DSU交換後,同じ監視を続けたが,1カ月以上たっても同じ障害は起こらなかった。原因は,DSUの不良だったわけだ。A社は,両ルーターとサーバーの応答時間を常時監視する運用法をその後も続けている。