「A Zero ETL future(ETLをゼロに)」――。米アマゾン・ウェブ・サービス(AWS)のアダム・セリプスキーCEO(最高経営責任者)は年次イベント「AWS re:Invent 2022」の基調講演に登壇し、この言葉をスクリーンに映し出して「ETL(抽出/加工/ロード)をなくす」という方向性を打ち出した。
DX(デジタルトランスフォーメーション)の取り組みが進展する中で、多くの企業が複雑なETLの運用を強いられている。様々な業務システムからデータレイクやデータウエアハウス(DWH)などの基盤にデータを集約する必要がある。ゼロETLという方向性は、重荷になっているこの作業負荷を軽減するものだ。
今回新たに発表したゼロETLのサービスの1つが「Amazon Aurorazero-ETL integration with Amazon Redshift」だ。リレーショナルデータベース(RDB)の「Amazon Aurora」とDWHの「Amazon Redshift」との間でシームレスにデータを連携する。例えばAuroraにデータが書き込まれると、数秒以内にRedshiftにレプリケートするという。
Redshiftについては、オブジェクトストレージ「Amazon S3」からのデータコピーを自動化する新機能である「Amazon Redshift auto-copy from S3」も発表した。これまでもユーザーが都度、実行すればコピーできたが、自動化することで継続的なデータ取り込みの手間を減らせる。
さらに、Redshiftとオープンソースソフトウエア(OSS)の分散処理フレームワークである「Apache Spark」を統合する新サービス「Amazon Redshift integration for Apache Spark」の一般提供も発表した。Redshiftのデータに対してSparkアプリケーションから直接クエリーを実行できるようにした。
「Amazon Athena for Apache Spark」は、クエリーエンジンのサービスである「Amazon Athena」の拡張機能だ。Apache Sparkのワークロードを、Amazon Athena を介して、Amazon S3のデータに対して適用できる。つまりユーザーはSparkのサーバークラスターやストレージを用意することなく、Amazon AthenaとAmazon S3だけを使ってSparkのワークロードを実行可能だ。