DXの現場では新しいデータが増え、ビッグデータに対する分析要求が強くなる。非構造化データや非定型データを扱う基盤の中核がデータウエアハウス(DWH)である。米マイクロソフトはDWHサービス「Azure Synapse Analytics」を提供している。
DX(デジタルトランスフォーメーション)の現場では新しいデータが日々増えていき、ビッグデータに対する分析の要求が日に日に強くなっていきます。ビッグデータの大部分を占めているのは非構造化データ・非定型データです。従来の管理システムでは記録・保管・解析が難しかった巨大なデータ群です。
ビッグデータは「データの量(Volume)」「データの種類(Variety)」「データの発生・更新頻度(Velocity)」の3つのVで構成されています。これらをリアルタイムにかつ高速に処理することで、これまでになかったビジネス視点での洞察や仕組み、システムの開発を可能にします。
ビッグデータ基盤の中核をなすのがデータウエアハウス(DWH)です。米アマゾン・ウェブ・サービス(AWS)の「Amazon Redshift」、米グーグルの「Google BigQuery」、米マイクロソフトの「Azure Synapse Analytics」、米オラクルの「Oracle Exadata」、米スノーフレークの「Snowflake」などが有名です。今回は主要サービスの中から、マイクロソフトのAzureに焦点を当て、Azure Synapse Analyticsの特徴を解説します。
SQL Data Warehouseが進化
マイクロソフトは2020年12月3日(米国時間)、オンラインイベントでクラウド分析サービスであるAzure Synapse Analytics(以下、Synapse)の最新バージョンについて一般提供を始めると発表しました。
Synapseは「Azure SQL Data Warehouse」を進化させたサービスです。「Apache Spark」ベースのデータレイク機能を搭載し、分析サービスの「Azure Databricks」やETL(抽出・変換・読み込み)サービスの「Azure Data Factory」、NoSQLサービスの「Azure Cosmos DB」などとの統合も実現しています。Synapseはクラウドだけでなく、オンプレミスやSaaS(ソフトウエア・アズ・ア・サービス)上のデータを収集し、変換・統合・分析できるマネージドサービスです。
分析後のデータは「Azure DataLake Storage Gen2」に蓄積します。Azure Data Lake Storage Gen2はAzure Blob Storageをベースとして、効率的なデータアクセスができるように階層型名前空間を追加したビッグデータ用のストレージです。スループットを維持しつつ、ペタバイト単位の情報を利用可能にする目的で設計されています。