PR

 国産検索エンジン技術を開発するベンチャー企業のプリファードインフラストラクチャー(PFI)。開発リーダーである岡野原大輔氏は、10歳の時にデータ圧縮ソフトの開発を始めたスーパープログラマーだ。現在は、ビッグデータ時代に注目を集める「機械学習」技術のリアルタイム化や大規模化に挑んでいる。

大量データに対する機械学習をリアルタイム処理するミドルウエア「Jubatus(ユバタス)」を2011年秋に公開しました。機械学習とは何か、改めて説明してもらえますか。

 たくさんのデータから、人にとって有益なルールや法則を見つけ出すことを指します。厳密な定義はなく、人工知能(AI)や統計、データマイニングなどの手法を総称して機械学習と呼んでいます。

 私が手がける検索エンジンや、その基盤技術となる自然言語処理の分野でも、機械学習の活用が増えています。文章を名詞や動詞などの品詞に分解する「形態素解析」を例にとりましょう。

 この手法は古くからありますが、かつては言語学のプロが文章から品詞を切り分けるルール(規則)を作っていました。これに対し、現在の機械学習を使った手法では、人間が文章を分解した実例を、コンピュータが大量に学習(分析)することで、文章を分解するルールを見つけ出しています。

 機械学習の良いところは、分析するデータの量が増えるに従い、ルールの精度が高くなることです。コンピュータの性能や容量が向上するにつれて、人間が見つけたルールよりも、機械が見つけ出したルールの方が精度が高くなるケースが増えています。

グーグルに負けない技術を作る

ビッグデータの時代が来ると、機械学習の重要性はさらに高まりそうですね。

 ただ、課題もあります。一般的な機械学習のソフトには、リアルタイム性やスケーラビリティー(拡張性)が欠けているのです。

 米グーグルは、リアルタイム性の高い機械学習ソフトを独自に開発して、広告配信最適化などを実現しています。グーグルに負けない機械学習ソフトを一般の人々が使えるようにしたい。そう考えて、Jubatusを開発しました。

リアルタイム性はなぜ重要なのですか。

 従来の機械学習は、バッチ処理型の学習(バッチ学習)が中心でした。ある程度データがたまったら、一括して分析するというものです。このやり方だと、状況が刻々と変化する事態への対応は困難です。新しいデータが来たらすぐに分析して、リアルタイムにパターンやルールを更新しないと、状況の変化に対応できません。

 さらに、ビッグデータに対処するにはスケーラビリティー、すなわちたくさんのサーバーで学習を実行できることも大切です。

 Jubatusはこれらに対応するために、独自の分散アーキテクチャーを採用しています。データをクラスター内の各ノードに割り振り、各ノードがそれぞれ学習し、結果を全ノードで共有します。PCサーバーを増やせば、何ペタバイトものデータを基に学習できるようになります。

 データはすべてメモリー上で処理します。保存するのは学習結果だけで、生データはディスクに保存しません。こうすることで、リアルタイム性とスケーラビリティーを実現しました。

どんなアプリケーションが実現できますか。

 Twitterのようなソーシャル・ネットワーキング・サービス(SNS)で話題となっているトピックスを調べたり、電力や通信の突発的な需要増加を予測したりできるようになるでしょうね。

OSS以外のビジネスはあり得ない

Jubatusは、オープンソースソフトウエア(OSS)として公開しました。

 インフラ構築ソフトの世界では、OSS以外の事業モデルが成り立たなくなっているからです。分散バッチ処理ソフトの「Hadoop」がその典型です。まずOSSとして様々なユーザーに使ってもらい、市場そのものを生み出さなければ、ビジネスになりません。

(写真:加藤 康)

検索エンジン技術や機械学習に着目したきっかけは。

 データというカオスの中から、パターンやルールを見つけ出すことがもともと好きだったのです。

 プログラミングを始めたのは、10歳の頃でした。父の影響でパソコン通信を始め、すぐにデータ圧縮ソフトに興味を持つようになり、自分でソフトを開発し始めました。当時は、データを圧縮すればするほど、通信料を安くすることができたからです。

 データ圧縮ソフトは、データの中から似た情報やパターンを見つけて、それを手がかりにデータを圧縮します。自然言語処理や機械学習との共通点が多いんですよ。

 趣味で始めたプログラミングですが、情報処理推進機構(IPA)の「未踏ソフトウェア創造事業(未踏)」をきっかけに状況が大きく変わりました。大学2年の時に、新しい手法のデータ圧縮ソフトを作るというプロジェクトが、未踏で採択されたのです。そこで、学校では学べない「プロジェクトを動かす」楽しさを知り、のめり込みました。

 結局、未踏で私のプロジェクトは3回採択されました。データ圧縮の次に自然言語処理に関するソフト開発に取り組み、3回めの未踏で「圧縮接尾辞配列」という新しいアルゴリズムを採用した検索エンジン技術を開発しました。この時の成果が、PFIの検索エンジン「Sedue」の基礎となりました。

検索や機械学習をやりたいなら、グーグルに行くという選択肢もあったと思いますが。

 大学院時代に、グーグルのインターンシップに参加し、米国本社で開発に参加しました。グーグルにはすばらしい人材が集まっていて、刺激を受けました。

 その時に「自分もグーグルのような組織を作りたい」と強く思うようになりました。そこで、大学の同級生だった西川(徹氏、PFI社長)と、PFIを創業しました。

 私たちが目指しているのは、世界で爆発的に普及するような独自技術の開発です。しかし技術を育てるには、とても長い時間がかかる。私たちは短期的な利益を追いがちな日本のベンチャーキャピタル(VC)からの出資を受けずに、長期的な視野で独自技術の開発に取り組んでいます。世界に通用する技術を目指して、全速力で走り続けるつもりです。

(写真:加藤 康)
独自手法で検索を高速化

 プリファードインフラストラクチャー(PFI)の主力製品である統合検索プラットフォーム「Sedue(セデュー)」は、「圧縮接尾辞配列」という検索アルゴリズムを取り入れており、高速動作を特徴とする。 EC(電子商取引)サイトの検索エンジンや、Webメディアにおける関連記事レコメンド(推薦)サービスの基盤として採用されている。機械学習ソフトの「Jubatus」は、NTT情報流通プラットフォーム研究所と共同で開発した。

 PFIは、「ACM国際大学対抗プログラミングコンテスト(ICPC)」の世界大会に進出したプログラミングの“天才”が集まって、2006年に創業したベンチャー企業。Hadoopを使ったシステム構築ビジネスを、日本でいち早く始めたことでも知られている。

岡野原 大輔
プリファードインフラストラクチャー フェロー 特別研究員
岡野原 大輔氏は2010年、東京大学大学院情報理工学系研究科卒。在学中の2006年に、PFIの創業に参加した。2005年に「機械学習による言語処理に関する研究」で東京大学総長賞。IPAの「未踏ソフトウェア創造事業」では「スーパークリエータ」の認定を受けた。