PR

 グーグルがビッグデータに挑み始めたのは1990年代後半。当時は処理を実行するためのソフトが存在せず、並列プログラミング基盤「MapReduce」や分散ファイルシステム「Google File System(GFS)」などを独自に開発せざるを得なかった。

 今は状況が全く異なる。「大量に」「深く」「素早く」を「手軽に」にする製品やサービスの品ぞろえが充実しつつある(表1)。

表1●主要ベンダーによる、ビッグデータ関連製品開発や企業買収の主な取り組み
表1●主要ベンダーによる、ビッグデータ関連製品開発や企業買収の主な取り組み
[画像のクリックで拡大表示]

「大量に」はHadoop中心

 「大量に」を支える技術の中心は、MapReduceやGFSを模したOSSであるHadoopであると言っても過言ではない。

 IBMやEMC、富士通、日立製作所、NTTデータなどの名だたる企業が、Hadoopのシステムインテグレーション事業を展開。米マイクロソフトも8月、RDBソフトの「SQL Server」とHadoopとの連携ツールを出荷した。

 ITベンダーがいま主に進めているのは、Hadoopの使い勝手や信頼性を高める取り組みである。

 IBMは6月、Hadoopを独自に機能強化したソフト「InfoSphere BigInsights」の出荷を開始した。Hadoopに、Hadoopクラスター管理ソフトや「JAQL」という独自の問い合わせ言語を追加したものだ。8月には、表計算ソフトと同様の使い勝手でHadoop上のデータを分析・操作できるツール「BigSheets」を追加した。

 EMCは年内に出荷する予定の独自Hadoopディストリビューション「Greenplum HD」において、「HDFS(Hadoop Distributed File System)」に相当する部分を新規開発した。HDFSはHadoop標準の分散ファイルシステムである。HadoopはJavaで開発されているが、Greenplum HDの分散ファイルシステムはC++言語で開発し、性能の改善を図った。開発を担当する米MapRテクノロジーズは、グーグルでGFSの開発に当たっていた人物などが設立したベンチャー企業だ。

 富士通は現在、NTTデータと提携して、富士通のストレージ装置「ETERNUS」上で稼働するHadoopの開発を進めている。HDFSの代わりに、ETERNUSを使用する。

 NECも、独自にHadoopの強化を進めている。現在、NEC中央研究所が、Hadoopの一時データ保存領域に、ディスクではなく分散メモリーキャッシュを使用する技術を開発中だ。