全1546文字
PR

 AI(人工知能)が日本語を聞いたり読んだり話したりする。そんな「日本語テック」を企業が続々とビジネスに取り入れ始めた。既に業務に欠かせないツールになっている現場もある。先進企業の「日本語テック」の活用を紹介する。

 必要な文書がヒットしない――。文書検索のシステムにキーワードを入れても、目当ての文書や社内Webページがなかなか見つからなかった経験はないだろうか。文書検索の精度を高めるため、AIを用いた検索システムの導入が始まっている。とりわけ注目を集めているのが、米グーグル(Google)が開発したAI技術「BERT」だ。

 BERT以前の言語モデルは前にある単語から後ろに続く単語を予測したり、文章の中で近い距離にある単語同士の関係を把握したりするだけだった。それに対してBERTは文章中の離れた場所にある単語同士の関係を把握したり、文脈を読み取って文章の各所にあるべき単語を予測したりする。そのために「Transformer」と呼ぶニューラルネットワークを24層重ねた規模の大きいモデルとなっている。

 グーグルは2019年秋から「Google検索」にこのBERTを取り入れ、Webページの検索精度を高めている。特に「日本人がブラジルに行くのにビザは必要か」のような自然言語による検索で、入力した文の意味をより正確に読み取れるようになったという。

 ジェーシービー(JCB)はこのBERTに注目した。同社はファイル数で数1000から1万に及ぶ業務マニュアルを持つ。内容が多岐にわたり「膨大なマニュアルから知りたい情報を探すのに時間がかかる」(中西洋介イノベーション統括部企画グループ主事)

 業務マニュアルから必要な情報をすぐ見つけられるようにする目的で、2019年春から12月にかけてBERTを使った文書検索システムのPoC(概念実証)を実施した。

 対象は主に調査部が使っているマニュアルにした。債権回収手続きのような専門性の高いマニュアルに加え、社内システムの使い方など汎用的なマニュアルもある。ファイル数は50で、紙に換算すると約700ページになるという。開発はAIベンチャーのAutomagiに依頼した。

 開発では、対象マニュアルの全文に加え、「追加学習データ」を2000件用意した。ここでいう追加学習データとは例えば「調査部によく寄せられる質問」と「答えが載っているマニュアルの箇所」のセットだ。このような追加学習データを2000件用意することで、検索精度の向上を狙った。

 開発過程において、Excelファイル形式のマニュアルの一部で検索結果のある箇所をダイレクトに表示できない問題が判明した。そこで文書を全てHTML形式に変換して対処したという。

JCBの中西洋介イノベーション統括部企画グループ主事
JCBの中西洋介イノベーション統括部企画グループ主事
[画像のクリックで拡大表示]