全3340文字
PR

 DX推進のニーズが高まるなか、より高度な「データ活用」が求められてきた。より多くのデータを集め、より速く、より入念に分析するには、最新のツールやサービスの活用が欠かせない。データ活用のための「新3種の神器」ともいえる「オブジェクトストレージ」「データ仮想化ツール」「データ連係クラウド」について、その機能や活用法を解説する。今回はデータ仮想化ツールを取り上げる。

 データ分析に当たり、社内外のデータを集めてデータウエアハウス(DWH)を構築するユーザーは多い。ただ、分析元のデータを保持するDWHやデータベースなど「データソース」の種類、数が増えるにつれて、その弊害が目立ち始めた。

 Denodo Technologiesの菊池智功ソリューション・コンサルタントは「使えないデータを統合してしまうケースが多い」と指摘する。「マスターやトランザクション、Web系などサイロ化したデータソースからバッチ処理でデータを集めようとするが、どこにどのようなデータがあるのか分からないからだ」と理由を話す。

 こうした課題を解決する技術の1つが「データ仮想化」である。データソースからデータをコピーすることなく、仮想的にデータを統合する。転職サービスのパーソルキャリアが事業部をまたがったデータ収集に利用するなど、実用期に入ってきたといえる。仕組みや利用上の注意点を見ていこう。

試行錯誤しながら有用データを集める

 米Denodo Technologies(デノードテクノロジーズ)の「Denodo Platform(Denodo)」や米TIBCO Software(ティブコソフトウエア)の「TIBCO Data Virtualization(TDV)」など、データ仮想化ツールの基本的な仕組みは同じだ。あらかじめデータソースへ接続したうえで必要なデータを定義。アクセスリクエストが発生したタイミングで定義に従って全データソースのデータを参照し、最新データを仮想テーブル(View、ビュー)として統合する。

「従来型DWH」と「データ仮想化」の違い
「従来型DWH」と「データ仮想化」の違い
(出所:NTTコム オンライン・マーケティング・ソリューション)
[画像のクリックで拡大表示]

 データ仮想化のメリットはいくつかある。1つは分析対象のデータを手軽に、かつ試行錯誤しながら集められることだ。データ仮想化ツールからはデータソースの中身が見えるので、データや項目名などを調べながら有用なデータを取捨選択できる。「売り上げ」や「在庫」といったデータソースによって項目名やデータの意味合いが異なるようなケースも、差し替えや読み替えなどが容易だ。

 データをコピーして集める従来型DWHは、こうした試行錯誤が難しいという悩みがあった。TDVを扱うNTTコム オンライン・マーケティング・ソリューション TIBCO部シニアコンサルタントの池田義幸氏は「これまでのウオーターフォール型のアプローチでは、将来の要件を含めてデータを調査して分析対象のデータを決定し、網羅的にデータベースを設計する必要がある」と話す。

 TDVは各種データソースに接続するために、350程度のアダプターを用意する。CSVファイル、RDBMS、NoSQLなどに加え、米Amazon Web Services(アマゾン・ウェブ・サービス、AWS)のオブジェクトストレージ「Amazon S3(Amazon Simple Storage Service)」や米Google(グーグル)のDWH「BigQuery」などクラウド上のサービス向けアダプターもある。

 これらデータソースに接続しながら、GUI(グラフィカル・ユーザー・インターフェース)上でデータの結合や変換、ビューの作成などを設定する。「Excelのヘビーユーザー程度のスキルがあれば、エンジニアでなくてもビューを設定できる」(池田シニアコンサルタント)という。