全4471文字
PR
ある企業から、Webシステムの応答が遅いので調査してほしいという依頼を受けた。通信事業者からレンタルしているルーターの設定ミスを見つけて対応したが、改善しなかった。調査を進めた結果、ルーターにフロー制御機能がないことが原因だと分かった。

 ミライトは通信建設工事大手の一角だが、ネットワーク障害の調査も手掛けている。中野 泰光さんは、同社の前身である大明の時代からこの調査を担当しているネットワークエンジニアだ。これまでに多くの案件を手掛けてきた。その中でも大きな教訓を得られたという事例を紹介する。2006年に担当したポイントサービスのWebシステムのトラブルだ。システムの応答が遅い原因を調査し、ボトルネックを特定して解決へと導いた。

 2006年6月のある日、小売りなどの加盟店向けにポイントサービスのシステムを提供している企業から「システムの応答が遅い原因を調べてほしい」という問い合わせがあった。消費者が店舗で商品を購入したときなどに発生するポイントをサーバー(ポイントサーバー)で管理するシステムだ。

 問題が起きたシステムでは、加盟店の担当者がWebブラウザーでポイントサーバーにアクセスして、ポイント登録などの操作をしていた。「通信トラフィックが少ない時間帯でも、ログイン画面の表示や画面遷移などの応答に時間がかかるとのことでした」(中野さん)。遅いときには、操作のたびに何十秒もかかっていたという。

CRCエラーの発生を確認

 同年6月23日から7月3日にかけて調査の事前準備を進めた。まず顧客にヒアリングをして、システムのネットワーク構成を把握した。通信事業者のネットワークと加盟店の間は、SSL-VPNによるインターネットVPNで接続。顧客のデータセンター(DC)と通信事業者のネットワークを最大1Mビット/秒のアクセス回線で接続していた。

トラブル発生時のネットワーク構成
トラブル発生時のネットワーク構成
ミライトではネットワーク障害の調査を請け負っている。調査を担当する中野さんのもとに「ポイントサービスのWebシステムが遅い原因を調べてほしい」という依頼があった。
[画像のクリックで拡大表示]

 事前準備の一環として、DC内におけるポイントサーバーやスイッチなどのネットワーク機器の負荷状態とログも確認した。調べた機器の負荷状態はいずれも問題なかった。

 しかし、「レンタルルーター(通信事業者からレンタルしているルーター)に接続しているDC内のレイヤー3(L3)スイッチのポートで、イーサネットフレームが壊れていることを示すCRCエラーが発生していました。これは、一部のパケットがエラーとして破棄されている状況です」(中野さん)。ただし、対向のレンタルルーターは調べられなかった。レンタルルーターは通信事業者が管理しているためだ。

 顧客DC内のネットワークでは、CRCエラー以外の問題は見つからなかった。このため、中野さんは「レンタルルーターを含めた通信事業者側のネットワークに遅延の原因があるのではないかと考えました」と話す。だが、通信事業者に改善を求めるには、より具体的な「証拠」が必要となる。そこで本格的な調査に取りかかった。