全5605文字
PR

 DX(デジタルトランスフォーメーション)の現場では新しいデータが日々増えていき、ビッグデータに対する分析の要求が日に日に強くなっていきます。ビッグデータの大部分を占めているのはさまざまな種類や形式を含む非構造化データ・非定型データです。 従来の管理システムでは記録・保管・解析が難しかった巨大なデータ群です。

 ビッグデータは「データの量(Volume)」「データの種類(Variety)」「データの発生頻度・更新頻度(Velocity)」の3つのVで構成されています。これらをリアルタイムにかつ高速に処理することで、これまでになかったビジネス視点での洞察や仕組み、システムの開発を可能にします。

 ビッグデータ基盤の中核をなすのがデータウエアハウス(Data Ware House、DWH)です。米Amazon Web Services(アマゾン・ウェブ・サービス、AWS)の「Amazon Redshift」、米Google(グーグル)の「Google BigQuery」、米Microsoft(マイクロソフト)の「Azure Synapse Analytics」、米Oracle(オラクル)の「Oracle Exadata」、米Snowflake(スノーフレーク)の「Snowflake」などが有名です。特に各主要クラウドはこの分野でしのぎを削っている状況です。

 今回は主要クラウドの中でも、マイクロソフトのAzureに焦点を当て、Azure Synapse Analyticsの特徴を解説します。後半でAmazon Redshiftとの違いにも触れます。

Azure SQL Data Warehouseが進化

 マイクロソフトは2020年12月3日(米国時間)、オンラインイベント「Shape Your Future with Azure Data and Analytics」で、クラウド分析サービスであるAzure Synapse Analytics(以下、Synapse)の最新バージョンについて一般提供を始めると発表しました。

 Synapseは「Azure SQL Data Warehouse」を進化させたサービスです。「Apache Spark」ベースのデータレイク機能を搭載し、分析サービスの「Azure Databricks」やETL(抽出・変換・読み込み)サービスの「Azure Data Factory」、NoSQLサービスの「Azure Cosmos DB」などとの統合も実現しています。Synapseはクラウドだけでなく、オンプレミスやSaaS(ソフトウエア・アズ・ア・サービス)上のデータを収集し、変換・統合・分析できるビッグデータ分析マネージドサービスです。

Azure DatabricksやAzure Data Factory、Azure Cosmos DBなどとの統合を実現
Azure DatabricksやAzure Data Factory、Azure Cosmos DBなどとの統合を実現
図 Azure SQL DataWarehouseからAzure Synapse Analyticsへの進化の概要
[画像のクリックで拡大表示]

 分析後のデータは「Azure Data Lake Storage Gen2」に蓄積します。Azure Data Lake Storage Gen2はAzure Blob Storageをベースとして、効率的にデータアクセスができるように階層型名前空間を追加したビッグデータ用のストレージです。何百ギガ単位のスループットを維持しつつ、ペタバイト単位の情報を利用可能にする目的で設計されています。