PR

 「ビッグデータ」は業界をにぎわせているキーワードである。このキーワードにさまざまな意見があるだろうが、技術や製品の進化はビッグデータのニーズに応える形で進化している。ITエンジニアなら、そうした進化をしっかりと押さえておきたい。

 ビッグデータを扱う製品の代表といえば、分散処理機構を備えたHadoopだろう。だがHadoopのプログラミングモデルであるMapReduceは習得が難しい。そこでビッグデータの収集と1次加工のみHadoopを使い、データ分析はそれを得意とするデータベースに任せる方向で技術が進化している。

 筆者が特に注目しているのが「カラム型分散データベース」だ。分散型でスケーラビリティーを確保しつつ、カラム単位で高速検索・集計する機能を備える。データ圧縮機能もある。複雑なインデックスは不要でSQL文も利用できるので、MapReduceより簡単に使いこなせる。米国大統領選挙でもHadoopの後ろでカラム型データベースHP Verticaが活躍した。さまざまな分析アルゴリズムをすぐに試して結果を出すには効果的な組み合わせである。この分野ではそのほか、Amazon Redshiftにも注目したい。Amazon Web Services上でカラム型データウエアハウスを提供するサービスだ。

 ビッグデータでは、リアルタイム処理への要求が増している。クレジットカードの不正検知やサイバーテロの対処などは、データを蓄積してバッチ処理をしていては間に合わない。ほかにも、センサーの異常データの検出や証券のアルゴリズム取引、リアルタイムマーケティングなどでは、バッチではなく即時にデータを処理することで高い価値を生む。

 こうしたリアルタイム処理の分野は「CEP(Complex Event Processing)」や「ストリーミング処理」といわれ、多くの製品がある。代表例はApache S4とStorm。そのほか米IBM、米Oracle、米TIBCO Software、米Sybaseなども製品を提供している。

 アドホックな検索の応答性も、ビッグデータで求められる。そのニーズに応えているのは、Google BigQuery、Apache Drill、Cloudera Impalaなどだ。高パフォーマンスの逐次検索処理を大規模分散環境で実現している。

 データベースのボトルネックは、これまでずっとディスクI/Oだった。それを解消する技術としてインメモリーデータベースも進化している。データをメモリー上に配置することで高速処理を実現する。製品の選択肢も豊富で、Oracle Coherence、VMware vFabric Gemfire、SAP HANAをはじめ多くの製品がある。OSSでもmemcached、VoltDBなどがある。

 既存のデータベースベンダーはハードウエアとソフトウエアを一体化させたアプライアンスで大幅に処理を高速化させている。SSD(Solid State Drive)をフルに活用することでディスクアクセスのボトルネックを軽減し、既存のデータベースアーキテクチャーのまま高速処理を実現している。代表は、IBM Netezza、Oracle Exadata、Teradataなどだ。

 ビッグデータを軸にデータベース技術が進化し製品が改良されてきている。どう組み合わせてユーザーに価値を提供できるのか、ITエンジニアの腕の見せどころだ。製品の特性を理解した上で、正しく効果的に活用しよう。

漆原 茂(うるしばら しげる)
ウルシステムズ 創業者兼代表取締役社長。2011年10月よりULSグループ代表取締役社長を兼任。大規模分散トランザクション処理やリアルタイム技術を中心としたエンタープライズシステムに注力し、戦略的ITの実現に取り組んでいる。シリコンバレーとのコネクションも深く、革新的技術をこよなく敬愛している