PR

 DAGエンジンの一つが「Spark」で、ASFは2014年5月30日に「バージョン1.0」を公開した。またホートンワークスはDAGエンジンである「Tez」の開発を進めている。MapReduceでは、SQLクエリーなどを含むあらゆる処理を「Map処理」と「Reduce処理」という比較的大きな処理単位に分割して並列実行する。一方SparkやTez は、SQLクエリーなどを従来よりも小さな処理単位に分割し、処理ごとに最適な順番で実行する。

 Tezを開発するホートンワークスによれば、HadoopにおけるSQLクエリー処理の仕組みである「Hive」を、MapReduceではなくTezを使って実行することによって、実行速度が最大100倍にまで高速化するとしている。

 またMapReduceでは、Map処理とReduce処理の度にディスクへの書き込みが発生するが、SparkやTezではインメモリー処理が可能になる。そのためSparkやTezでは、ディスクに書き込まずに処理を行うストリーム処理や、繰り返し型の計算が多い機械学習処理やグラフ処理などが高速化する。

 米クラウデラの「Impala」や米MapRテクノロジーズの「Drill」、米Pivotalの「HAWQ」などSparkやTezを使わないSQLエンジンの開発も進んでいる。Hadoopの適用分野は今後一層広がりそうだ。