UBICは2013年9月6日、犯罪捜査のためのソフトウエア「Lit i View Xaminer」を発表した。メールのやり取りや携帯電話の通話履歴など、犯罪や不正の証拠となるデータを収集・解析する。文書の重要度を自動的に判定できるため、大量のデータの中から証拠となり得るものを効率的に見つけられるという。警察などの官公庁に向けて販売する。価格は解析するデータ量によって異なり、200GBの場合で年間150万円から。
Lit i View Xaminerの特徴は、弁護士などの専門家が人手で行った文書分類の結果をコンピューターが学習し、自動分類する技術「プレディクティブ・コーディング」を搭載すること。専門家が分類済みの文書をコンピューターが解析し、犯罪に関係があるとされた文書だけに登場するキーワードなどに着目。キーワードごとに重みを付ける。これを利用して、未分類の文書をコンピューターで自動分類する。
これにより、データ解析の効率化が図れるほか、人間が見逃してしまう重要証拠を見つけるのにも役立つという。「1時間に33万種類の文書を、90%の精度で解析できる。能力の高い弁護士が4000人集まり、長時間全く疲れずに作業するのと同じ」(守本正宏社長)。
なお、学習の基となる人手での分類結果(教師データと呼ぶ)は、各案件ごとに作成する必要がある。必要となる教師データの量は、解析するデータの内容などによって異なるという。例えば、ある企業で発生した情報漏洩事件では、調査対象となった20台のパソコンのうち、2台分を人手で分析。その結果を基に残り18台のデータを自動解析したところ、1台から重要な証拠文書を発見できたという。
人手による分類結果をコンピューターが学習し、自動分類を可能にするという手法は、迷惑メールの判別などの分野でも広く使われている。代表例が、「ベイズ分類」と呼ばれる技術だ。UBICの今回の技術はこれらとは異なり、「迷惑メールかそうでないか、といった単一の分類でなく、さまざまな解析に利用できる」(同社CTOで、テクノロジー部部長の武田秀樹氏)。今後、医療、テロ調査、軍事情報調査など、多様な分野に応用するという。