データ活用サービスの開発競争で3大クラウドがしのぎを削っている。AWS(Amazon Web Services)はオブジェクトストレージ「Amazon S3」にデータを集めるデータレイク戦略を拡大。ライバルであるMicrosoft AzureやGCP(Google Cloud Platform)への対抗を強める。
AWSはマネージド型データベース(DB)の「Amazon RDS」をはじめ、ETL(Extract、Transform、Load)ツールの「AWS Glue」、各種AI(人工知能)など様々なサービスを通じデータ活用を支援する。その戦略の中心に位置するのはオブジェクトストレージのAmazon S3である。
「全てのデータをS3にロードしてデータレイクを構築し、AWS Glueでデータフォーマットを整え、そこから各種ツールを使ったデータ分析に進む」(アマゾン ウェブ サービス ジャパンの瀧澤与一 技術統括本部 レディネス&テックソリューション本部 本部長)。これがAWS上のデータ活用の基本パターンである。
「S3はコストやセキュリティー面から見てデータレイクとして総合的に優れている」。こうS3を評価するのはNRIネットコムの佐々木拓郎クラウド事業推進部長だ。セキュリティーについては、IAM(Identity and Access Management)でユーザーのアクセス権を制御するほか、バケットと呼ぶS3のデータ格納域に対してもアクセス管理が可能。データレイク構築・管理サービス「AWS Lake Formation」を使えばS3のカラム単位にもアクセス制御ができるなど「S3はエンタープライズ用途に向けて作ってあると感じる」(佐々木部長)。
S3に蓄積したデータを分析するサービスはいくつかある。大量データの分析ではデータウエアハウス(DWH)「Amazon Redshift」にデータをロードするのが一般的だし、クエリーサービス「Amazon Athena」を使えばS3に格納されたデータに直接SQLを実行できる。
ただし最近では、S3にデータを集めながらも分析には他のクラウドサービスを使うユーザーもある。AWSから見た最大の競合はGCPのDWHサービス「BigQuery」だ。
NRIネットコムの喜早彬 クラウド事業推進部 課長代理は「AWSのS3上でデータの前処理を行い、それをGCPのCloud Storageに転送。GCPのBigQueryで分析した結果をAWSに戻し、RDS上にデータマートを構築するような利用例もある」と話す。複数のクラウドから最適なサービスを連携して用いるマルチクラウドの波はAWSにも確実に迫っている。
AWSとしては、せっかくS3に集めたデータを他クラウドへ流出させたくない。分析作業をBigQueryに取られまいと、分析関連サービスの機能強化に力が入るのは当然だ。最近の重点施策はRedshiftの高速化、データ連携(Federation)機能の拡充の2つである。