DX推進のためにデータレイク型のデータ基盤を採用する企業が増えている。あらゆるフォーマットのデータを集め、必要に応じて加工しながらデータを利用する。後から利用方法を考える「データ倉庫型」と事前に加工する「データ工場型」に分類できる。
デジタルトランスフォーメーション(DX)を進める上で「データ活用」は最も重要な要素の1つです。近年はデータ活用を進めるためにデータレイク型のデータ基盤を採用する企業が増えています。今回はデータレイク型のデータ基盤を解説します。
データレイクとは、巨大なストレージにあらゆるフォーマットのデータを集めつつ、必要に応じて加工しながら利用できる次世代型のデータ基盤です。データレイク型データ基盤における処理は4つのフェーズで構成します。(1)データを各システムから集める「収集」、(2)データをデータストアに格納する「蓄積」、(3)格納されたデータを活用する「利用」、そして(4)利用するためにデータフォーマットを変換する「加工」です。
データレイクの設計パターンは主に「データ倉庫型」と「データ工場型」に分類できます。データをそのままの形で蓄積することだけを役割の中心とするのが倉庫型、データを蓄積するだけでなくデータの加工もするのが工場型です。ただし、データ倉庫型でも全く加工処理を施さないわけではありません。必要最低限の加工はします。なお、一般的なDWH(データウエアハウス)と、ここで言うデータ倉庫型の概念は異なります。データ倉庫型はデータレイクの設計パターンを説明するために、著者らが作り出した用語です。
DXを始めるためのデータ倉庫型
DXを進めるには、DXで何を目指すのかを最初に決める必要があります。多くの企業はまず、社内のあらゆるデータを1カ所に集めて、データサイエンティストらによるアドホック分析を行い、様々な角度から可能性を探り、DXのきっかけを作ろうとします。
アドホック分析とは、目的の結果を得る手順が決まっておらず、クエリー処理の結果を踏まえて、次にどんなクエリー処理をするかを考える分析手法です。まだ活用されていない未知のデータに対するデータ分析は、最初にアドホック分析から始めることがほとんどです。例えば欲しいデータがどこにあるのか、集計にどの程度の時間がかかるのかといったことを試行錯誤しながらデータに当たりを付けていきます。このとき、データの分析対象は生データ(処理しやすいように加工をしていない、収集したデータそのもの)が中心です。
生データを1カ所に集めることに特化したのが「データ倉庫型」と呼ぶデータレイク型のデータ基盤です。集めた生データをデータレイク内のオブジェクトストレージにそのまま保存します。収集可能なあらゆるデータをデータレイク内のオブジェクトストレージに取りあえず蓄積しておきます。
データ倉庫型のデータ基盤は原則、収集・蓄積したデータをそのまま利用者や利用システムに提供し、加工処理は利用者側に委ねます。ただし、何でもそのまま提供していると、利用者側の負荷が高まります。
どの企業においても、生データはすぐ分析に使えるわけではありません。データの型をそろえたり、集約したりといった処理を施す必要があります。このような作業をデータの前処理と言います。せっかくDXを進めようとしても、データ分析の準備に膨大な時間を取られてしまうことが、データアナリストの間で問題視されます。