全5281文字
PR

Redshiftの特徴

 Redshiftはマネージドサービスであり、AWSの管理画面から簡単に作成可能で、パフォーマンスの状況も確認できます。ペタバイト規模のデータを扱えるだけでなく、AWSによって処理が高速化されるように設計されており、DWHとして利用を始めやすくなっています。

 バックアップは手動取得も自動取得もいずれも設定可能です。AWSのストレージサービス(S3)に安全に格納され、リストアも容易で任意の時間に復元できます。データの暗号化については、RedshiftがAWSの暗号化キー管理サービス(KMS)と統合されているため簡単な設定で済みます。

 拡張と縮小について、Redshiftの仕組みも含めて説明します。Redshiftはクラスターごとに1つのリーダーノードと1つ以上のコンピュートノードで構成されています。リーダーノードはクライアントアプリケーションから命令を受け取り、コンピュートノードに処理をさせます。複数のコンピュートノードが存在する場合は、それぞれが独立しているためディスクも各ノードで個別に保持しています。

 リーダーノードは1つのタスクを複数のコンピュートノードに分散して処理をさせます。コンピュートノードを追加することで1ノード当たりの処理量が減るので、スケールアウトできます。

1つのリーダーノードと1つ以上のコンピュートノードで構成
1つのリーダーノードと1つ以上のコンピュートノードで構成
Redshift(リーダーノード/コンピュートノード)とRedshift Spectrum
[画像のクリックで拡大表示]

 ノードを追加すると、クラスターへの組み込みやデータ再配置をRedshiftが自動で担います。オンプレミスとは違い、Redshiftではダウンタイムを発生させずに拡張や縮小が容易にできます。

 こうしたことで運用管理は大幅に簡略化されましたが、DWHをクラウド化する一番のメリットはコスト面かもしれません。オンプレミスでは高額な機器を用意し、ソフトウエアライセンスを購入しなければならず、気軽に試行を繰り返すことはできませんでした。Redshiftは他の多くのサービスと同様、従量課金で利用できます。PoC(概念実証)などを試せます。その結果、仮に撤退する場合でも損失を最小限に抑えられます。DXを進める上で、手軽に試せなかったオンプレミスとは異なり、Redshiftにはコスト面と試行という点で大きなメリットがあります。

 Redshiftでデータの取り扱いはどうなるのでしょうか。RedshiftはPostgreSQL8.0.2に準拠した仕様となっています。PostgreSQLのクエリーツールを利用してデータを操作できます。既にPostgreSQLデータベースを利用しているユーザーには親和性が高いため、既存のシステムにRedshiftを組み込みやすくなります。

 また、Redshiftのデータ操作のために、データ管理者がPythonやPHPなどの言語を習得しなくてもよく、既存のPostgreSQLのDBA(データベース管理者)のノウハウを流用できます。データ活用という観点ではTableauなどの一般的なBI(ビジネスインテリジェンス)ツールともシームレスに連係できます。Redshiftへのデータロードは、S3からCOPYコマンドで取り込めますし、SQLで直接投入することもできます。