PR
図●テキスト含意認識を高速化した新方式の概要(出典:NEC)
図●テキスト含意認識を高速化した新方式の概要(出典:NEC)
[画像のクリックで拡大表示]

 NECは2013年11月14日、大量データから特定の意味を含む文書を検出する“テキスト含意認識”の技術を改善したと発表した。約700万文のテキストデータを処理すると、従来のやり方では約1.3時間かかるが、新方式では0.2秒で終わるという。顧客の声やSNSの反応といった非定型データの分析に向く。

 テキスト含意認識技術とは、二つの文が同じ意味を含むかどうかを判定する技術である。文の表現が異なっても意味が同じものを検出する。例えば、「私はリンゴが好きだ」に対して、「僕はアップルが好物だ」は含意(意味が同じ)であり、「彼はリンゴが好きだが私は嫌いだ」は非含意(意味が異なる)である。

 NECはもともと、テキスト含意認識に強いという。具体的には、単純に単語の一致/不一致を検出するだけでなく、文中における単語の重要度や主語/述語などの文構造を考慮する方式を採用した。これは、単語の重要性で候補を絞るプロセスと、文構造で含意を判定するプロセスで構成する。

 まずは、候補を絞る。同義語も考慮した上で、入力文における重要な単語が、対象テキストにおいても一定以上の割合で出現している場合(被覆率がしきい値を超えた場合)に、含意の候補とする。入力文に含まれる単語の重要度は、自動的に判定する。次に、絞った候補について含意を判定する。文の構造が入力文と異なるかどうかを調べる。文の構造が大きく異なる場合は、意味が異なる可能性が高い。

 今回NECは、最初のプロセスである、候補を絞るやり方を改善した()。具体的には、文の重要度(文に含まれる個々の単語の重要度を合計したもの)に着目し、入力文の重要度よりも大幅に低い重要度しか持たない文を、含意の候補から機械的に除外する方式とした。これにより、入力文の重要な単語の被覆率をチェックする手前の段階で、チェック対象を大幅に減らせる。

 新方式が有効である根拠は、「文書の重要度が一定値以下であれば、重要な単語の被覆率もしきい値を超えない」、という関係が成り立つことにある。