PR

 クラウドコンピューティングが基幹業務を担いつつあり、その信頼性にユーザー企業の関心が集まっている。クラウドの信頼性をどう評価するべきか、海外ベンダーへの依存が強くなる中で危機管理体制をどう築くかなどを議論するため、システム部長会は7月19日に勉強会を開催した。

写真●中田敦記者と議論する参加者
クラウドやデータセンターで起こったトラブルを振り返り、日米の運用体制の違いなどを語った。

 勉強会の前半では、本誌の中田敦記者が「DevOpsの可能性と、『動かないコンピュータ』が報じたクラウドのトラブル」と題して講演。日本と主に米国で発生したクラウドやデータセンターの大規模障害の経緯や、障害から見えたリスク管理の考え方などを解説。開発と運用の連携を自動化する「DevOps」の動向にも言及した。

 中田記者は、2012年夏に日本で起きたファーストサーバや富士通の大規模データセンター(DC)や、米グーグルと米アマゾン・ウェブ・サービスのクラウド障害を詳しく解説。原因をたどると、日米には運用体制に大きな「格差」があると指摘した。日本はDCの1拠点でのトラブルが顧客に被害を及ぼしたが、米国は複数のDCで冗長化構成を取っており、1拠点でのトラブルは想定内だった。ただし負荷分散装置のソフトのバグが顕在化するなど「メガクラウド」を支える先端技術が枯れておらず、結果的に大きな障害となったとの見方である。

 中田記者はその上で、IaaS(インフラストラクチャー・アズ・ア・サービス)については複数の選択肢から「良い」サービスを選ぶことや、複数のIaaSでIT基盤を冗長化するマルチクラウドの採用で高い信頼性を確保できると提言。「良い」クラウドの選定基準として、データ消失の恐れがある揮発性のディスクを使用していることを明示し、不揮発性ディスクも別に用意するなど「正直な(説明責任を果たしている)」サービスを選ぶことを挙げた。バックアップが厳重なサービスも良いクラウドだとしてサービス例を挙げた。

 質疑応答では、日米のクラウド運用体制の「格差」について、参加者から「日米で事業規模が大きく違う上に、日本では運用より開発に優秀な技術者が集まる傾向がある。運用スキルの差を埋めるのは容易ではない」「障害時にベンダーから詳しい情報提供があるなど、日本のサービスを選ぶ理由がある」といった指摘が出た。参加者が「最近は○△社が運用品質のデータを開示するようになった」などベンダーの情報を具体的に語り合う場面もあった。ある海外ベンダーのクラウドは、参加者が繰り返し情報開示を求めた後に、障害時間が次第に低減して品質が向上した状況を確認できたという。

 SLA(サービスレベル契約)の定義が不明確で順守できていないサービスがあるなどの指摘もあった。ただ発言を総じて見ると、基幹系システムの稼働環境であってもクラウドを上手に活用して高い信頼性を確保すべきという考え方が支配的だった。