全1725文字
PR

 インテージは2021年4月から、AI(人工知能)を使って多くの文章を意味ごとに分類する解析ツール「文意知(ぶんいち)」を発売した。統計学の知見を組み込んだAI(人工知能)を使って大量の文章データを分析し、文章の意味を抽出・分類する。営業社員の日報やアンケート、SNS(ソーシャル・ネットワーキング・サービス)などの分析・活用を支援する用途に売り込む。

 文意知は大量の文章データからマーケティングや商品開発などに生かせる情報を抽出する「テキストマイニング」製品の一つ。テキストマイニングをはじめ、文章の要約や解析といった文章処理技術は今最も進展の著しい分野だ。火付け役は米Google(グーグル)。2018年に自然言語処理に特化したAI技術「BERT」を発表して以降、文章処理技術は一躍脚光を集め、様々なビジネス領域への応用も期待されるため研究開発競争も激しい。レッドオーシャン(競争)市場に参入するインテージの勝算とは。

 まず解析対象となる文章を読み込み、ある単語が他の単語と一緒に出てくる頻度、単語の文章の中での位置関係といった情報からAIが文章の傾向を学習し、どんな内容についての文章かを表す「トピック」を複数抽出する。次に個々の文章がどのトピックに当てはまるかの確率を計算して、文章を自動的に分類する。

AIが文章の意味を抽出して自動で分類する
AIが文章の意味を抽出して自動で分類する
(出所:インテージテクノスフィア)
[画像のクリックで拡大表示]

 例えば「投薬後、翌日に軽い肺炎の症状が確認された」と「検査して、軽い肺炎の症状が確認された」という2つの文はともに肺炎、症状、確認の単語を含むが、前者は薬の副作用について言及した文なのに対して後者は症状について述べている。文意知では他の大量の文章も学習することで、2つの文を別のトピックについて述べていると認識できる。

 従来のテキストマイニングは単語の有無や頻度を基に文章の意味を推測するものが多いため、「副作用」という単語を含まない前者の文章を副作用についての文章として認識できない可能性が高かったという。解析精度を高めるため、事前に手作業で「副作用」や「症状」といったトピックや、そのトピックに分類するための単語を設定する必要がある。文意知はAIを組み込むことで、「事前の設定なしに文章を分類できるようにした」(インテージグループのインテージテクノスフィアで文意知の事業責任者を務める井上周ビジネスインテリジェンス第一本部新規ビジネスプランナー)。

 井上氏は「自然言語解析は話者の多い英語では研究が進んでいるが、言語によって有効な手法が異なる。とりわけ日本語は遅れていた」と話す。