PR
斉藤 太朗 日立製作所 ソフトウェア事業部 ネットワークソフトウェア本部
黒崎 芳行 日立製作所 ソフトウェア事業部 ソリューション本部

SNMPを使ったネットワーク管理ツールは,企業内の大規模パソコン・ネットワークの性能管理や障害切り分けのために不可欠です。システム管理ツールやヘルプデスクとの連携に焦点を当てながら,機能,活用法,設計法を解説します。

 前回は,大規模パソコン・ネットワークでパソコンのソフトウエア配布,障害対応,資源管理に有効なシステム管理ツールを中心に解説しました。今回は,ネットワークを含めたシステム全体の障害切り分けや性能管理に欠かせないネットワーク管理ツールについて解説します。

切り分けと性能管理に活用

大規模パソコン・ネットワークでは,平素からネットワークまで含めてシステム全体を監視しておくことが重要です。ネットワーク管理ツールを使うことで,ネットワーク機器だけでなくネットワークに接続したパソコンまでを一元的に監視できます。

 大規模パソコン・ネットワークでは,あらかじめ障害が発生することを想定した,障害検出と障害発生個所の切り分けの仕組みが不可欠です。障害の発生個所をエンドユーザーが判別することは難しいため,システム管理者側でパソコンとネットワークを一元的に監視する必要があります。

 監視プロトコルにSNMPを用いたネットワーク管理ツールを使うことで,パソコンまで含めたネットワーク全体を,集中的に監視できます。ネットワーク管理ツールでトラフィックや性能情報を収集しておけば,問題発生前にシステムのボトルネックを探せます。

パソコンまで含めた管理を実現

 SNMPを用いたネットワーク管理では,ネットワーク管理装置(マネージャ)が,管理対象機器に組み込まれたエージェントにポーリングをかけ,MIB管理情報を収集します。MIBはIETFで標準化されており,マルチベンダ環境のネットワーク管理も実現できます。

写真1 ネットワーク管理ツールによるパソコンの情報の表示例
奥に管理情報の一覧を,手前にハード・ディスクについての詳細情報を表示している。
 MIBを使って収集できる情報には,ネットワーク機器のポートごとの稼働状況やトラフィック状況,ネットワーク機器のプロセッサの負荷などが含まれます。管理対象からの応答が得られなかったり,項目ごとにあらかじめ設定したしきい値を超えたりすると,警報を発します。管理者は警報を基に障害発生個所を推定し,マネージャの画面上で必要な情報を収集します。

 ネットワーク管理ツールの監視対象にできるのはネットワーク機器だけではありません。クライアント・パソコンを含むコンピュータは,エージェント機能を稼働させることで管理対象にできます(写真1[拡大表示])。例えばWindows NT Workstationは,標準でエージェント機能を備えています。Windows95/98もエージェント・ソフトを組み込めば,管理可能になります。パソコンもネットワーク管理ツールの監視対象にすることで,管理に必要な情報を一元化でき,障害の検出や切り分け,ボトルネックの調査などを容易に実行できるようになります。

 マネージャは警報を管理者に電話で通知したり,ログ収集などの作業を起動する機能も備えます。マネージャによっては遠隔地のWebブラウザに監視情報を表示できるものもあります。これらの機能を使えば,例えば夜間の障害発生時には管理者の携帯電話に自動通報し,管理者はパソコンからマネージャの画面を確認して次の対応を判断するといった使い方が可能です。いつ発生するか分からない障害のために,マネージャの画面を監視し続けるといった作業は不要になります。

写真2 性能情報の表示例
メモリー使用率を表示した例。時系列でメモリー仕様率の変化を把握できる。
 マネージャは,収集した情報を警報を発するためだけに使うのではありません。プロセッサや回線の使用率などの統計情報を時系列に保存することで,システム使用状況の判断材料として活用できるようになります。期間を定めてパソコンやネットワークの統計情報を分析すれば,システムのボトルネックが分かります。

 ネットワーク管理ツールを使えば,システムの増設のタイミングや,ネットワークやパソコンの性能増強のタイミングを的確に判断できるのです。ほとんどのネットワーク管理製品は,取得した統計情報をグラフ化して表示する機能も持っています(写真2[拡大表示])。

不要な情報は収集・表示を中止

 ネットワーク管理ツールで障害を監視するときには,「イベント・ストーム」と呼ばれる現象が大きな問題になります。イベント・ストームは,ある事象をきっかけに,マネージャ側で監視不能など大量のイベントが発生し,本当に重要な情報が判別できなくなる状態です。

 例えばルーターが障害を起こした場合,そのままではルーターから先にあるすべての機器の障害情報が一斉に表示されてしまいます。マネージャはルーターの先に対して一定間隔でポーリングを続け,障害の検出を繰り返すからです。ルーターに対しても,ポーリングのたびに同一の障害情報を表示します。

図1 イベント・ストーム抑止による監視の効率化
ネットワーク監視では,あるイベントに関連して,大量のイベント(イベント・ストーム)の発生が問題になる。このためネットワーク管理ツールによっては,マネージャ側で障害や工事などネットワーク内の状況に応じて監視を中止するなど,イベントの発生や表示を減らす機能を備えている。
 このため,システム管理者側ではどれだけのイベントが発生しているかを判別できなくなり,障害が復旧した場合も対応する障害を特定できないといったことになりかねません。イベント・ストームはネットワーク機器での障害の発生時だけでなく,あらかじめスケジュールが決まっている停電や工事などでも起こります。

 大規模ネットワーク向けのネットワーク管理ツールでは,イベント・ストームを抑止するために,不要なポーリングを中止したり,情報を整理して表示する機能を持った製品があります(図1[拡大表示])。

 例えば,(1)障害が起こった機器から先の監視の中止,(2)同一内容の複数のメッセージの集約,(3)復旧情報と障害情報との対応付け,(4)あらかじめ停止が分かっている部分のスケジューリングによる監視対象からの除外――といったことを実現します。これらの機能で管理者は障害の発生場所を直観的に特定できるようになり,マネージャも無意味な監視を中止できます。