全4926文字
PR

世界3大クラウドがデータ活用サービスの開発競争でしのぎを削る。AWS(Amazon Web Services)はDWHの高速化に注力、Microsoft AzureはSQL Data Warehouseの進化版を投入した。BigQueryで迎え撃つGCP(Google Cloud Platform)も機能拡充に余念がない。今、どのクラウドを選ぶべきか。最新動向を踏まえ機能を比較する。

 ユーザー企業のDX(デジタルトランスフォーメーション)を後押しすべく、クラウド上のデータ活用基盤の開発競争が激しさを増している。中心となるのは米アマゾン・ウェブ・サービスの「Amazon Web Services(AWS)」、米マイクロソフトの「Microsoft Azure」、米グーグルの「Google Cloud Platform(GCP)」、いわゆる世界3大クラウドサービスだ。

 データを「集める」「ためる」「分析する」といった目的に向けて各クラウドが提供するサービスは数多い。オブジェクトストレージや各種データベース(DB)、データウエアハウス(DWH)、ETL(抽出、変換、ロード)ツールやBI(ビジネスインテリジェンス)ツール、各種AI(人工知能)など、データ活用に欠かせない機能をユーザーは手軽に使える。

 中でもここにきて進化が著しいのがDWHサービスだ。AWSの「Amazon Redshift」は2019年12月に第3世代のインスタンス「RA3」を発表。製品のアーキテクチャーを刷新し価格性能比向上を図った。マイクロソフトは従来の「Azure SQL Data Warehouse」の進化版と位置づける「Azure Synapse Analytics」を2019年11月に発表。大規模並列処理での性能を高めた。

 AWSやAzureにとってDWH分野での最大の競合がGCPの「BigQuery」である。アクセンチュアの福垣内孝造テクノロジーコンサルティング本部 テクノロジーアーキテクチャグループ クラウドソリューションアーキテクトは「大量データの処理はBigQueryが優れているといわれていた。これに対抗すべくAWSやAzureが同様のサービスを出してきた」と説明する。

 AWSやAzureがDWHの高速化を図ってきたのは、膨大なデータを素早く分析したいというユーザーニーズに応えるためだ。特にDX案件では従来の業務データに加え、IoT(インターネット・オブ・シングズ)システムからのセンサーデータや各種ログ、SNS(ソーシャル・ネットワーキング・サービス)のつぶやきなど、分析対象データは多岐にわたる。しかも処理対象のデータ量がどれだけ増えるか読みづらい。

 ユーザーが求めるデータを柔軟に提供するため、3社のデータ活用基盤は複数のデータソースを簡単に連携する機能も強化している。サービスの進化でしのぎを削る3大クラウドのデータ活用機能を、以下で詳しく見ていこう。

S3中心にデータ集めるAWS

 AWSはオブジェクトストレージ「Amazon S3」にデータを集めるデータレイク戦略に力を入れている。マネージド型DBの「Amazon RDS」をはじめ、ETLツールの「AWS Glue」、各種AIなど様々なサービスを通じデータ活用を支援する。その戦略の中心に位置するのがAmazon S3である。

図 AWSのデータ活用基盤の特徴
図 AWSのデータ活用基盤の特徴
オブジェクトストレージ「S3」に全データを集める(出所:アマゾン ウェブ サービス ジャパンの資料を基に作成)
[画像のクリックで拡大表示]

 「全てのデータをS3にロードしてデータレイクを構築し、AWS Glueでデータフォーマットを整えて各種ツールを使ったデータ分析に進む」(アマゾン ウェブ サービス ジャパンの瀧澤与一 技術統括本部 レディネス&テックソリューション本部長)。これがAWS上のデータ活用の基本パターンである。

 S3に蓄積したデータを分析するサービスはいくつかある。大量データの分析ではDWHサービスのRedshiftにデータをロードするのが一般的だ。クエリーサービス「Amazon Athena」を使えばS3に格納されたデータに直接SQLを実行できる。