データウエアハウス(DWH)用ソフト「Greenplum Database」を開発・販売する米Greenplumは2010年6月下旬に、新版「Greenplum Database 4.0」と、新ソフト「Chorus」の提供を日米で同時に始める予定だ。Chorusは企業内にある様々なデータソースのデータを仮想的に集約し、一元的に分析するための製品。同社でアジアパシフィック&ジャパン バイスプレジデント兼ゼネラルマネージャを務めるキース・バッジ氏は「企業内のデータから多くの知見を得るためには、すべてのデータを一元的に分析する必要がある」と語る。(聞き手は吉田 洋平=日経コンピュータ)


 企業のデータ活用の現状についてどう感じているか。

写真●米Greenplum アジアパシフィック&ジャパン バイスプレジデント兼ゼネラルマネージャ キース・バッジ氏
[画像のクリックで拡大表示]

 DWHについて言えば、多くの顧客は価格性能比を気にしている。膨大なデータを分析するためにMPP(超並列処理)のシステムを用意しようとすればかなりのコストがかかるため、当然の動きだといえる。

 当社が提供するDWHソフト「Greemplum Database」は、ネティーザやテラデータ、オラクルなどのDWHアプライアンス製品とは大きく異なる点がある。オープンソースソフトウエアを基に開発していることと、汎用的なx86サーバーであればどのメーカーの製品でも使用できることだ。この2点を理由に、我々のソフトを使って構築したDWHは他社のアプライアンス製品よりも価格性能比が高い。

 その証拠に、当社の新規顧客の獲得数は他社を上回っている。現在100以上の企業が当社製品を利用しており、2009年の売り上げは前年比で100%以上伸びた。

 もう一つ、企業はエンタープライズDWH(EDW)の活用についても頭を悩ませている。25年ほど前にEDWが提唱された際のコンセプトは、「EDWに企業が持つすべてのデータを入れよう」というものだった。だが現在、企業内の様々なところにデータが散在している。多くのケースで、90%以上のデータがEDWには入っていない。

 企業はEDWのデータを業績報告や財務諸表の作成に使用したため、EDWを厳格に運用した。その結果、多くのデータを入れるべきであるEDWから、逆に多くのデータが離れていってしまった。

 ただ、企業の中には厳格に運用しなくてはならないデータは当然ある。つまり、一つのDWHに企業内のすべてのデータを保存するのは不可能だということが、約25年の取り組みで分かったことだ。

Greenplumの製品は、EDWの抱える問題を解決できるのか。

 問題を解決するための製品が、6月に提供を始める予定の「Chorus」だ。我々はこの製品のことを、データコラボレーションプラットフォームと呼んでいる。機能を簡潔に説明すると、「EDWにあるデータも無いデータも分析するためのソフト」ということになる。具体的には、企業にある複数の種類のデータベース管理システムに対して、外付けでデータ管理の機能を提供する。

 Chorusを使えば、EDW内外のデータ、社内外のデータ、構造化データと非構造化データといったすべてのデータを包括的に管理するプラットフォームを構築できる。我々はこのようなプラットフォームを「エンタープライズ・データ・クラウド」と呼んでいる。

 エンタープライズ・データ・クラウドは企業内にあるデータを仮想的に統合し、一元的に分析するものだ。そのため、既存のEDWをリプレースする必要はない。当社のDWHソフトを使用していない企業でも利用できる。

 こういった仕組みで最も重要なのはセキュリティだ。Chorusでは、誰がどのデータにアクセスする権限を持つかを、細かく設定できる。

同時に発売する「Greenplum Database 4.0」の特徴は。

 最大の特徴はワークロードの管理機能を強化したことだ。MPPの課題としてよく指摘されるのは、膨大なワークロードをどのように管理するのか、同時処理をどのように管理するのか、といった部分だ。

 今回、新たに三つのワークロード管理機能を追加した。一つ目は、データベースで同時に何個のセッションまで許容するかを管理する機能。二つ目は、接続したユーザーの中から誰が優先順位が高いのかを管理する機能。三つ目は、クエリーの中身に応じて処理の優先順位を動的に決めていく機能だ。この三つの機能を抱き合わせて使うことで、いままで無かったような同時処理を実現することができる。

 これらに加えて、扱うことのできるワークロードの種類が増えたのも特徴だ。今までは分析のワークロード管理に特化していたが、新たにオンライントランザクション処理などのワークロードの管理にも対応した。

 これにより、例えばある分析結果を使って、すぐ別の取り引きをする、といったことができるようになった。ただ、今後もGreenplum Databaseの主な用途は分析ワークロードの管理であることに変わりはない。