PR

 「Amazon Redshift」は米AmazonWeb Services(AWS)が提供するデータウエアハウス(DWH)のサービスである。

 2013年に登場して以来、非常に速く普及し、AWSの中で最も成長率が高かったことがあるほど人気は高い。これからRedshiftを導入するユーザーの視点で、その特徴やパフォーマンスを評価した。

Redshiftはシェアードナッシング

 まず、Redshiftのアーキテクチャーを確認しよう。Redshiftは超並列処理(MPP)を行う。データとクエリーの負荷を自動的に分散して並列処理し、処理能力を高める。

 データ分析に用いられるデータベース製品にはシェアードディスク型とシェアードナッシング型があり、Redshiftは後者に属する。前者は多数のトランザクションの実行に向くが、共有ストレージのI/Oがボトルネックになりやすい。

 一方、シェアードナッシング型はストレージも含めて分散処理するのでハードウエアのセットを増やすことでI/O性能を引き上げ、多量の読み込みを高速処理できる。

 Redshiftでは、複数のComputeNodeとLeader Nodeでクラスターを構成する(図1)。

図1 Amazon Redshiftの構成
図1 Amazon Redshiftの構成
[画像のクリックで拡大表示]

 分散処理はノードのメモリー、ディスク容量の一部をセットとして割り当てたスライスと呼ばれる単位に分割して実行する(図2)。

図2 Redshiftのノードタイプとスペック
図2 Redshiftのノードタイプとスペック
[画像のクリックで拡大表示]

この記事は有料会員限定です

日経クロステック有料会員になると…

専門雑誌8誌の記事が読み放題
注目テーマのデジタルムックが読める
雑誌PDFを月100pダウンロード

日経電子版セット今なら2カ月無料