PR

 データセンター事業者の業務内容を舞台裏から解説するこの連載の第2回では,普段の運用業務についてスポットを当てる。お客様のサーバーやネットワーク機器を預かったデータセンターでは,日々どのような仕事をしているのだろうか?その様子を解説したい。

 最も代表的な運用業務の一つに,監視業務がある。サーバーやネットワーク機器が常に正常に動作している,つまり健康でいられるよう見張り番をする重要な作業である。障害は様々なレイヤーで起きるため,監視対象は幅広い。それは通信回線かもしれないし,ネットワーク機器やサーバー機器そのものかもしれない。また機器に問題がなくても,Webサーバーのプロセスやデーモン(httpd)など一部の機能のみがダウンしている可能性もある。こうした様々なレイヤーに対し,重要度に応じて監視の網をかけていくことが,障害を未然に防ぎ,障害時の復旧を早める上で重要となる。

 当社の場合は,余裕を持った当直3交代制で24時間365日の監視体制を敷いて,お客様からお預かりした大切なIT資産を常時監視している。基本的には,システム管理ツールを用いて,ネットワーク経由でお客様のサーバーやネットワーク機器の動作をチェックしている(図1)。監視には「グローバル監視」と「ローカル監視」の2系統がある。前者はインターネットなど外部ネットワーク経由でpingなどを飛ばして監視を行う。後者はデータセンター内に構築したLANから直接監視を行う。お客様によっては両方の監視を行っている場合がある。例えば「グローバル監視」でping応答が返ってこないが,「ローカル監視」でping応答が確認できる場合は,外部ネットワークの異常が考えられる。両系統からの監視を行うことにより,より迅速に障害切り分けを行うことができる。

図1●当社が採用している監視の仕組みと障害時の連絡の流れ
図1●当社が採用している監視の仕組みと障害時の連絡の流れ
[画像のクリックで拡大表示]

 管理ツールで監視する項目やしきい値,連絡方法などは,あらかじめお客様と交わした契約内容に基づいて決めており,応答がなかったり,しきい値を超えたりしたときは,メールや電話でお客様に連絡する。メールのみの連絡だと,メッセージを見落としたり実際に読むまでに時間がかかったりするため,対応が遅れる場合がある。特に夜間の障害の場合は連絡を確実に行う必要がある。稼働するシステムによっては,朝までに復旧させなくてはならない場合がある。そのため,メールだけでなく電話で連絡を行う。1分でも早く障害内容をお知らせすることは日々のシステム運用においてとても重要なことである。

 監視スタッフは,監視センターというデータセンター内の専用ルームで,管理ツールの内容をチェックしている。この部屋の中には,お客様はもちろん当社一般社員といえども直接,入ることはできない。あらかじめ決めた権限を持つ監視スタッフのみが入室し,サーバーやネットワークを監視している。監視担当者の机には各システムなどのモニターがあり,奥には大型スクリーンが設置されている。大型スクリーンでは,ジョブ・スケジューリングやCPU状態など基幹系システムのモニタリングや,データセンター設備の状況を表示している。エラーが発生するとポップアップ表示され,システム・エラーの場合はどのシステムでエラーが出たのか確認の上,そのシステムの窓口担当者に連絡を行う。設備の監視では,漏水監視,温度監視,火災監視など,データセンター設備自体の監視を行っている。万が一エラーが上がった場合は設備対応の窓口担当者に連絡を行い,点検保守対応を行う。

 さらに,契約によっては,サーバー・ルームなどに設置した機器そのものを定期的に目視点検している。以前にテレビで蒸気機関車の各機能をひとつ一つ丁寧に調べる技術者の姿を見たことがあるが,機器目視点検はまさにそれである。例えば,ping監視で応答は返ってくるが,機器のエラー・ランプが点灯している場合がある。このようなケースとして考えられるのは,サーバー自体は稼働しているものの,部品であるハードディスクやRAIDカードに異常がある場合や,送風ファン,冗長化電源の片方に異常がある場合などである。

 クリティカルなシステムの場合は契約に基づきハードウエア部品個別にログ監視を行う場合があるが,そこまでの監視が求められない場合もある。しかし,データセンター全体の監視レベルを上げるため,この目視点検を当社では行っている。というのも,ping監視,HTTPなどのプロトコル監視,ディスク容量などのリソース監視,プロセス監視,システムログ監視に至るまで自動監視体制が整備された現在でも,このような目視点検を合わせた二重三重の監視を敷くことで,より障害を未然に防ぐことができるからである。

 実際の目視点検は,まるで我が子を見守るように,結果をひとつ一つチェックシートに記録していく地道な作業だ。点検時間は,午前/午後の指定時間などある程度選択することができ,取り決めた時間帯に目視点検を行う。

 IT資産のヘルスチェックを実施しているケースもある。ログの分析や,メモリーやディスクの使用状況を確認し,定期的にお客様に報告する。メモリーの使用量やディスクの空き容量の長期的な傾向を知ることで,将来の設備投資計画を決める際に役立てることができる。

 データセンター事業者としては,こうした監視サービスを安定して確実に行う体制を作る必要がある。監視センターは3交代制で24時間365日休まず対応するため,当直職員の健康管理には特に気を遣う。定期健診については,一般社員は年1回だが,監視センターの当直社員は年2回の受診を実施している。

 BCP(事業継続計画)対策の一貫として,インフルエンザの流行時期前には職員への予防接種も実施している。機器への定期点検も重要ならば,それを守る技術要員の“定期点検”も実は重要だったりするのである。何はともあれ,機械も人間も健康が一番!

柏原 丈二
株式会社STNet 事業企画部 情報サービス企画チーム チームリーダー
生産管理システム開発,2000年問題対応,年金システム開発,損害保険関連システム開発,ITコンサルティング業務などを経て,現在はSTNet情報システム事業の商材企画・調査を担当している。システムアナリスト,システム監査技術者。重点調査分野はITサービス・マネジメント,エンタープライズ・マッシュアップ,RIA(Rich Internet Applications)。趣味は登山。