PR

4.1 GEAPの概要

 図4に示すように,GEAPは,次に示す3つのコンポーネントで構成されている.

  • 高信頼で,高速なリアルタイムログ収集システム
  • ストレージ・分散処理システム
  • GUIやAPI等で,可視化したデータ分析結果を提供するプレゼンテーションレイヤ
図4●グローバルイベント解析プラットフォームのアーキテクチャ
図4●グローバルイベント解析プラットフォームのアーキテクチャ
[画像のクリックで拡大表示]

 ログ収集システムは,ログを生成する多数のホスト上で動作するアプリケーションから,ストレージ・分散処理システムにデータを集約するシステムである.収集に当たっては,ログデータを集約しながらストリーム形式で送信し続け,最終的にストレージ・分散処理システムにデータストリームを到達させる.国内外に位置する多数のサーバから,高信頼で,高速にデータを収集する必要があるため,我々は,Apache Flume[8]をベースとし,信頼性を向上させる手法を適用することで,ログ収集システムを構築している(*).

* 詳細については,4.2.1にて示す.

 ストレージ・分散処理システムは,ログ収集システムによって集約されたデータを,保存・解析処理する役割を担っており,本プラットフォームのもっとも重要なシステムである.本システム上に存在するデータは,あらかじめ定義されたプロセスを通して処理されていき,処理結果はプレゼンテーションレイヤに向けて,継続的に送信されていく.ストレージ・分散処理システムは,多様なデータ規模・解析用途に対応しなくてはならないため,図4に示す通り,Hadoop/Hiveクラスタ,Cassandraクラスタ,インメモリデータベース環境等の複数のコンポーネントで構成されている.これにより,データ規模・解析用途の違いによって,適用させるコンポーネントを変更することにより,あらゆる規模,用途の処理に対しても高速に処理する基盤を提供している(*).

* 詳細は,4.2.3にて示す.