PR

 KAIZENで重要なのは、実際にやってみて問題点を洗い出し、それを改善するという一連のサイクルをなるべく早く繰り返すこと。データの処理に36時間もかかるようでは、その処理を何度も繰り返すことができない。

 テキスト分類器も、KAIZENが生み出した産物だ。2014年10月に最初のテキスト分類器を完成させた段階では、コメントを分類する精度は56%に過ぎなかった。その後、何度もプログラムの開発を繰り返すことで、現在はその精度を82%にまで高めることができた。

あらゆるビッグデータ処理にSparkを使用しているのですか。

 我々はHadoopとSparkを併用している。用途に応じて、HadoopのSQLエンジンである「Hive」や「Impala」なども使っている。

 HadoopやSparkは、当社のオンプレミス(社内データセンター)で運営している。Hadoopのディストリビューション(検証済みパッケージ)は米Clouderaのものを使っており、HadoopとSparkのサポートは両方、Clouderaが担当している。

トヨタがSpark Summit 2015のスポンサーになったのはどうしてですか。

 以前、Hadoopをテーマにしたカンファレンスに参加した際に、(米大手小売業の)Targetがイベントのスポンサーになって、展示会場でデータサイエンティストのリクルーティングをしていたのを目撃したことがあった。データサイエンティストを求めているのは、トヨタも同じだ。

 我々はスポンサーになる前から、Spark Summit 2015で事例講演をすることが決まっていた。せっかく講演をするなら、この会場に来ているデータサイエンティストのリクルーティングもしようと考えて、Spark Summit 2015のスポンサーに名を連ねた(写真2)。

写真2●トヨタがSpark Summit 2015に出展したブース
写真2●トヨタがSpark Summit 2015に出展したブース
[画像のクリックで拡大表示]

 トヨタは、イノベーションや最先端技術を必要としている。そのためには、優秀な人材を集めることが欠かせない。リクルーティングは我々にとって、最も重要な課題の一つだ。