データレイク型の設計パターンは、加工処理を行う箇所によって2つに分けられる。どちらのパターンもメリットとデメリットがあり、導入にはトップダウンでの推進体制が重要だ。2つの設計パターンの特徴と適する用途を解説する。
前回に続き、データレイク型のデータ基盤の設計パターンを紹介します。データレイク型は、巨大なストレージにあらゆるフォーマットのデータを集めつつ、必要に応じて加工しながら利用できるデータ基盤です。
データレイク型のデータ基盤における処理は、大きく4つのフェーズで構成されます。データを各システムから集める「収集」、データをデータストアに格納する「蓄積」、格納されたデータを活用する「利用」、そして利用するためにデータフォーマットを変換する「加工」です。今回は、「利用」と「加工」のフェーズに絞って設計パターンを紹介します(図1)。
加工・利用におけるデータレイクの設計パターンは、主に「データ倉庫型」と「データ工場型」の2つに分類できます。データレイク内で加工せず利用者側で加工するのが倉庫型。データレイク内で加工するのが工場型です。ただし、データ倉庫型でも全く加工処理を施さないというわけではありません。必要最低限の加工処理は行います。
ちなみに、一般的なDWH(データウエアハウス)と、ここで言うデータ倉庫型の概念は異なるものです。データレイクの設計パターンを説明するために、著者らが作り出した言葉なので注意してください。
最低限の加工処理だけ行う
データ倉庫型
それでは、データ倉庫型の設計パターンから説明します。この設計パターンは、集めた生データをデータレイク内のオブジェクトストレージにそのまま保存しておくというものです。最近のトレンドというべき設計パターンでしょう。収集可能なあらゆるデータをデータレイク内のオブジェクトストレージに取りあえず蓄積しておきます。データが既にあって、データの利用方法は後から考えます(図2)。データ倉庫型のデータレイクは、原則として収集・蓄積したデータをそのまま利用者や利用システムに提供し、加工処理は利用者側に委ねることになります。
ただし、何でもそのまま提供していると、利用者側の負荷が高まってしまいます。この問題を解決するため最低限の加工はデータレイク側で施しておくケースが多く見られるようになりました。
主な使用例は、ビックデータのアドホック分析などが挙げられます。アドホック分析は、目的の結果を得る手順が決まっておらず、クエリー処理の結果を踏まえて、次にどんなクエリー処理を行うかを考える分析手法です。まだ活用されていない未知のデータに対するデータ分析は、最初にアドホック分析から始まることがほとんどです。