PR

データレイク型は、多種多様な製品やサービスを組み合わせて構築する。技術者を確保できない場合は、クラウドサービスの活用が有力だ。データレイクの構成要件とデータの収集・蓄積フェーズの設計パターンを解説する。

 今回から2回に分けて、データレイク型のデータ基盤の設計パターンを説明します。データレイク型の特徴は、巨大なデータストアにあらゆるフォーマットのデータを集め、必要に応じて加工しながら利用できることです。また、既存システムに大きな影響を与えずに構築できるため、設計の自由度が高いという特徴もあります。

 データレイク型のユースケースは、前回紹介した統合型や分散型のデータ基盤と大差はありません。基幹システムや情報システムなどの様々なデータストアからデータを集め、リアルタイムに分析したりすることで迅速なビジネス判断に役立てるものです。ただし、データレイク型は統合型や分散型に比べて、データを一元管理しやすいことやサイロ化が起こりにくいことなどから、大規模なデータを扱うのに最も適した構成と言えます。

 データレイク型での処理は、大きく4つのフェーズで構成されます。データを各システムから集める「収集」、データをデータストアに格納する「蓄積」、格納されたデータを活用する「利用」、そして利用するためにデータフォーマットを変換する「加工」です。加工フェーズは、「利用の中」または「蓄積と利用の間」に入るケースが多く見られます。この4つのフェーズに合わせてデータ基盤を設計するとよいでしょう。

 データレイク型のデータ基盤は、1つの製品やサービスではなく、多種多様な製品やサービスを組み合わせて構築するケースがほとんどです。ですので、リアルタイム性や正確性を担保したデータを提供できる基盤を構築するには、データフローのパイプラインを意識した設計・実装が欠かせません。

 今回は、収集と蓄積フェーズの設計パターンを説明します(図1)。

図1●データレイク型のデータ基盤
図1●データレイク型のデータ基盤
[画像のクリックで拡大表示]

基盤設計における6つのポイント

 収集や蓄積の処理を担うデータ基盤の設計時には、6つのポイントを考慮します(図2)。

図2●収集・蓄積フェーズにおける設計要素
図2●収集・蓄積フェーズにおける設計要素
[画像のクリックで拡大表示]