全5199文字
PR

 デジタルトランスフォーメーション(DX)を進めるにあたり、そのデータ基盤に米Amazon Web Services(アマゾン・ウェブ・サービス、AWS)の「Amazon Web Services(AWS)」、米Microsoft(マイクロソフト)の「Microsoft Azure」、米Google(グーグル)の「Google Cloud」、米Oracle(オラクル)の「Oracle Cloud Infrastructure(OCI)」といったクラウド環境を選択するケースが主流となっています。本連載は「クラウドネーティブなデータ基盤設計」と題して、各種クラウドが備えているネーティブのサービスを使って、データ基盤を充実させるための実践的な方法を解説します。

 例えば複雑なデータパイプラインを素早く構築したり、大容量のデータ移行を効率よく実行したり、リアルタイムに流れるストリーミングデータを自動で処理したりするなど、データ基盤を設計・構築する上で参考となるテーマを取り扱います。

 基本的には前述のクラウドサービスを中心に解説していきますが、データクラウドサービスとして「Snowflake」の注目も高まっていますので、本連載の後半で取り上げる予定です。

 データ基盤に関する新たなサービスや最新のアップデートを全てキャッチアップするのは非常に困難です。そのため、本連載では2022年現在における、主要なデータ基盤関連サービスの最新情報を得られるよう構成していきます。

クラウドネーティブなデータ基盤の全体像

 データ基盤における重要な要素として、データ群(データソース)、データレイク、データカタログ、データベース、データウエアハウス(DWH)が挙げられます。これらの要素の関係性はデータの流れを見ると分かります。まず、データソースから多種多様なデータを収集、データレイクに集めます。データレイクに集めたデータに、必要な加工を施してDWHへロードします。このようなデータの抽出・加工・格納をETL(Extract、Transform、Loadの略)、一連の流れをデータパイプラインと呼びます。

データの流れを押さえる
データの流れを押さえる
図 クラウドネーティブなデータ基盤の概要
[画像のクリックで拡大表示]

 DWHでは集めたデータに対して結合、集計、条件抽出などの処理を行い、AI(人工知能)分析にかけるためのデータを作成したり、BI(ビジネスインテリジェンス)ツールで分析可能なデータマートを作成したりします。

 データ基盤はこれらのデータパイプラインに関わる領域全体を指します。現在では、データ基盤に必要な機能を全てクラウドネーティブなサービスでそろえることも可能です。そして、DXで真っ先に課題として挙げられるのが、社内のデータを活用したくても、どこにどのようなデータがあるのか分からないといったデータ検索です。それを解決するのが、データカタログです。データをビジネスユーザー向けに提供するための目録、辞書のような製品です。

 また、クラウド環境でアプリケーションサービスを構築することが増えるに伴い、既存の環境からクラウド環境にデータベースを移行する機会も増えています。