グーグルがビッグデータに挑み始めたのは1990年代後半。当時は処理を実行するためのソフトが存在せず、並列プログラミング基盤「MapReduce」や分散ファイルシステム「Google File System(GFS)」などを独自に開発せざるを得なかった。
今は状況が全く異なる。「大量に」「深く」「素早く」を「手軽に」にする製品やサービスの品ぞろえが充実しつつある(表1)。
「大量に」はHadoop中心
「大量に」を支える技術の中心は、MapReduceやGFSを模したOSSであるHadoopであると言っても過言ではない。
IBMやEMC、富士通、日立製作所、NTTデータなどの名だたる企業が、Hadoopのシステムインテグレーション事業を展開。米マイクロソフトも8月、RDBソフトの「SQL Server」とHadoopとの連携ツールを出荷した。
ITベンダーがいま主に進めているのは、Hadoopの使い勝手や信頼性を高める取り組みである。
IBMは6月、Hadoopを独自に機能強化したソフト「InfoSphere BigInsights」の出荷を開始した。Hadoopに、Hadoopクラスター管理ソフトや「JAQL」という独自の問い合わせ言語を追加したものだ。8月には、表計算ソフトと同様の使い勝手でHadoop上のデータを分析・操作できるツール「BigSheets」を追加した。
EMCは年内に出荷する予定の独自Hadoopディストリビューション「Greenplum HD」において、「HDFS(Hadoop Distributed File System)」に相当する部分を新規開発した。HDFSはHadoop標準の分散ファイルシステムである。HadoopはJavaで開発されているが、Greenplum HDの分散ファイルシステムはC++言語で開発し、性能の改善を図った。開発を担当する米MapRテクノロジーズは、グーグルでGFSの開発に当たっていた人物などが設立したベンチャー企業だ。
富士通は現在、NTTデータと提携して、富士通のストレージ装置「ETERNUS」上で稼働するHadoopの開発を進めている。HDFSの代わりに、ETERNUSを使用する。
NECも、独自にHadoopの強化を進めている。現在、NEC中央研究所が、Hadoopの一時データ保存領域に、ディスクではなく分散メモリーキャッシュを使用する技術を開発中だ。