PR
4.2.4多様な解析手法・処理要求に関する課題と工夫

 本プラットフォームは多種多様なデータを集約・蓄積しているため,様々な解析手法のニーズが存在し,解析スピードに関する要求も様々である.たとえば,マネージメントに属する社員は,長期間のデータを対象とした,比較的長いスパンでの解析をする必要がある.このような解析の要求に対応するため,本プラットフォームは,大規模データに対して複雑なクエリを受け付けられるようにしなくてはならない.また,データ解析・マーケティング部門に属する社員は,インタラクティブな解析を実施する必要がある.したがって,ある過去数日・数週間のデータを対象にしたクエリを比較的短時間で返さなくてはならない.さらに,オペレーションに近い立場の社員は,リアルタイムに近い時間差で,データを集約した結果が必要である.

 このような多種多様な解析要件を満たすために,我々は,Flume上で流れるデータストリームの宛先を仕分けできるようにするモジュールを開発した.このモジュールを活用することで,あるストリームは,長期間のアーカイブが蓄積されているHadoopクラスタに集約されることで長期間のデータに対する解析に利用され,あるストリームは,比較的短期間のデータを対象としたインタラクティブな解析を行うためにCassandraクラスタに集約され,さらに別のストリームは,リアルタイムに近い環境下で,ダッシュボードライクなGUIインタフェースを提供するために,インメモリデータベース環境に集約されるといったことが可能となり,様々な解析要件に対して応えうるプラットフォームになる.

4.3 GEAPの活用事例

 ログ解析を通したサービスの最適化を実現するため,様々なサービスがGEAPを利用することを検討している.また,サービスへの適用の他,マーケティング部門,研究機関のメンバも,モデルや解析手法を構築するためにGEAPに蓄積されているデータを参照しながら解析を行っている. 本節では,GEAPの利用方法の興味深い事例として,クラウド環境においてのGEAPの活用事例について述べる.

4.3.1 クラウド環境のためのLogging as a Service

 楽天グループには,約2,000人のエンジニアがおり,多数のサービスのアプリケーションを開発し,運用を行っている.そのため,楽天グループでは,アプリケーションの開発・テスト・リリース環境プラットフォームをエンジニアに迅速に提供するために,自社内でのクラウド環境,Platform as a Service(PaaS)環境の提供を行っている.この結果,クラウド環境にて動作するアプリケーションが急増しているが,ログ解析のためには,クラウド環境上で生成されるアプリケーションログを,ログ解析環境に集約し,解析するモジュールをサービス毎に開発せねばならず,開発コストの増加につながる.

 この問題を解決するため,楽天のPassS環境は,クラウド上で発生する様々なアプリケーションログ・及びシステムログの収集をグローバルデータ解析プラットフォームを利用して行うようにしている.本プラットフォームにAPIを介してアクセスすることにより,エンジニアはログ収集,解析モジュールを独自に構築するコストを削減できると共に,リアルタイムに,かつ迅速に,構築したアプリケーションの状況を把握することができる.

 また,アプリケーションログだけではなく,システムログも同様に集約することで,クラウド環境を提供する側にもPasS環境全体がどのようなステータスであるのかを簡単に確認することができ,PasS環境の向上に有効な指標となっている.