全5117文字
PR

DXを進めるにあたり、データ基盤としてクラウド環境を選択するケースが主流となってきた。主要なクラウド環境が備えるネーティブのサービスを使ってデータ基盤を構築できる。クラウドネーティブなデータ基盤の全体像と、本連載で取り上げるサービスを概観する。

 デジタルトランスフォーメーション(DX)を進めるにあたり、そのデータ基盤に米アマゾン・ウェブ・サービス(AWS)の「Amazon Web Services(AWS)」、米マイクロソフトの「Microsoft Azure」、米グーグルの「Google Cloud」、米オラクルの「Oracle Cloud Infrastructure(OCI)」といったクラウド環境を選択するケースが主流となっています。この連載ではこれらのクラウド環境が備えるネーティブのクラウドサービスを使って、データ基盤を充実させるための実践的な方法を解説します。

 例えば複雑なデータパイプラインを素早く構築したり、大容量のデータ移行を効率良く実行したり、リアルタイムに流れるストリーミングデータを自動で処理したりするなど、データ基盤を設計・構築する上で参考となるテーマを取り扱います。

クラウドネーティブな基盤の全体像

 データ基盤における重要な要素として、データ群(データソース)、データレイク、データカタログ、データベース、データウエアハウス(Data WareHouse、DWH)が挙げられます。これらの要素の関係性はデータの流れを見ると分かります。

 まず、データソースから多種多様なデータを収集して、データレイクに集めます。データレイクに集められたデータに、必要な加工を施してDWHへロードします。このようなデータの抽出・加工・格納をETL(Extract、Transform、Loadの略)、そして一連の流れのことをデータパイプラインと呼びます。

 DWHでは集めたデータに対して、結合、集計、条件抽出などの処理を行い、AI(人工知能)による分析にかけるためのデータを作成したり、BI(ビジネスインテリジェンス)ツールで分析可能なデータマートを作成したりします。データ基盤はこれらのデータパイプラインに関わる領域全体を指します。現在では、データ基盤に必要な機能を全てクラウドネーティブなサービスでそろえることも可能です。

 DXで真っ先に課題として挙げられるのが、社内のデータを活用したくても、どこにどのようなデータがあるのか分からない、どのようにデータを検索していいのか分からない、といった点です。それを解決するのがデータカタログです。データをビジネスユーザー向けに提供するための目録、辞書のような製品です。

 そして、クラウド環境でアプリケーションサービスを構築することが増えるに伴い、既存の環境からクラウド環境にデータベースを移行する機会も増えています。以下でETL、クラウド移行、データカタログ、DWHについて概観していきます。

図 クラウドネーティブなデータ基盤の概要
図 クラウドネーティブなデータ基盤の概要
データの流れを押さえる
[画像のクリックで拡大表示]