山田 英史氏 ディアイティ 技術部長
森 勝氏 サイバーソリューション ソリューション推進室
ルーターの応答時間の監視で原因特定
A社は次に,ネットワークの遅延が原因ではないかと推測した。パケットの遅延があまりにも大きいと,TCP処理がタイムアウトを起こして,コネクションが切れる場合があるからだ。3日後,またユーザーからクレームが到着。しかし,警告メールは届いていなかった。ネットワークの遅延が原因ではなかったのである。
そこで次に,生産管理サーバーだけでなく,神戸工場側のルーターと本社のルーターにもpingを送り,応答時間を計るようにした。サーバーの監視と同様,応答時間が1000ミリ秒を超えたら警告メールを出す。
4日後,神戸工場のルーターの応答時間が1000ミリ秒を超えたことを示す警告メールが届いた。本社のルーターのpingの応答時間は10ミリ秒以下と速かったが,神戸工場のルーターの応答時間が異常に長かった。生産管理サーバーを調査すると,以前と同じくTCPコネクションが切断されていることが判明。すぐにアプリケーションを再起動して復旧させた。
これで,原因の特定は進んだ(図2[拡大表示])。専用線部分か神戸工場側のルーター,→DSU,もしくは生産管理サーバーのいずれかに原因があるということだ。A社は,専用線を提供している通信事業者に,DSUと専用線部分の調査を依頼。通信事業者は,専用線部分には異常はないと考え,A社のDSUを交換することになった。
DSU交換後,同じ監視を続けたが,1カ月以上たっても同じ障害は起こらなかった。原因は,DSUの不良だったわけだ。A社は,両ルーターとサーバーの応答時間を常時監視する運用法をその後も続けている。