日本国内では現在、数億パラメーター規模の「ほどほどに大きい言語モデル」のビジネス応用が進んでいる。GPT-3のような1000億パラメーターを超える巨大言語モデルでなくても、文章を内容に応じて分類するといった用途であれば、十分に実用的であるためだ。
スタートアップのストックマークは2022年7月29日、自然言語処理(NLP)を活用した市場調査サービス「Astrategy」に、新機能「事業環境レポート」をベータ版として追加した。事業開発や製品開発を進めるうえで必要な事業環境の最新情報を、国内外に約3万5000あるWebサイトから収集し、AI(人工知能)がその内容を整理したり要約したりしてくれる。このAIは言語モデルを応用して開発した。
例えば「メタバース」というキーワードをシステムに入力すると、メタバースに関連する「市場規模」や「政策動向」「技術動向」「自社業種動向(自社が属する業種におけるメタバース関連の動向)」「近接業種動向(自社に近接する業種における動向)」といった構成から成るリポートをAIが生成する。
このリポートの「市場規模」の欄には「マーケッツアンドマーケッツ社は、世界のメタバース市場規模が2022年618億ドルから2027年4,269億ドルまで達し、年平均47.2%成長すると予想しています」との文言が並ぶ。実はこれは、調査会社のH&Iグローバルリサーチが2022年6月16日に発表したプレスリリースから引用したものだ。
この文章だけなら「メタバース and 市場規模」というキーワード検索だけで探し出せそうだ。ところがストックマークが開発したAIは、より複雑な情報を引き出すことが可能だ。例えば自社の業種を「スタートアップ」と設定してリポートを作成すると、AIは「自社業種動向」の欄で、様々なスタートアップが最近メタバースに関して取り組んでいる話題を探し出してくる。
具体的には、HIKKYというスタートアップが発表したプレスリリースからは同社のメタバース開発エンジン「Vket Cloud」に関する情報を引用したり、スタートアップのREALITYが発表したプレスリリースから同社のスマートフォン向けメタバースに関する情報を引用したりしてリポートを作成した。
ストックマークが開発したAIは、Webサイトから収集した文章がメタバースに関連するものなのか、文章のどの部分が企業動向に関連するものなのかを正確に判別している。だからこそこのようなリポートが生成できるのだ。
グーグルのBERTをメタが改良したBARTを採用
ストックマークは事業環境レポート機能のAIに、米Google(グーグル)が2018年に発表した「BERT」相当の言語モデルを使用している。具体的には米Meta(メタ)がBERTを改良して文章要約などに応用できるようにした言語モデル「BART」を採用した。モデル規模は3億パラメーターだ。
様々な文章から「市場規模」や「政策動向」「技術動向」といった内容に関する部分だけを抽出する機能(タスク)は「ファインチューニング」によって開発した。ファインチューニングとは、「穴埋め問題」などによって大量の文章を自己教師あり学習させた言語モデルに対して、数百~数千件の教師データを追加学習させることで、新しいタスクに対応させる手法である。
具体的にはストックマークは、プレスリリースなどの文章に対して「市場規模」を表す部分や「技術動向」を表す部分はどこにあるのかアノテーション(注釈)として加えた教師データを数百件作成し、それを事前学習済みの言語モデルに追加学習させた。