全4292文字
PR

AIの精度を左右する最新動向として3つの技術を紹介する。「自己教師あり学習」「マルチモーダル」「MLOps」をうまく取り入れる必要がある。4つのギルドから成る組織体制が、最新動向のキャッチアップに欠かせない。

 DX(デジタルトランスフォーメーション)の推進が企業の重要課題となっており、その差異化の手段としてのAI(人工知能)に対する期待は高まるばかりだ。

 AIの主たる要素である機械学習は近年どのように進展し、ビジネスに活用されるようになっているのか。本連載では機械学習のビジネス応用を専門とする筆者が、最新動向と企業事例について解説する。

AIの精度を左右する3つの技術

 国内でも企業のDXへの取り組みの進展に合わせて、AI活用が加速し始めている。例えば、社内外で生まれる多種多様かつ大量なデータを分析するためにAIが欠かせない存在となっている。AIによる画像や音声、文字などの自動認識、ビッグデータを分析した制御の最適化、将来の予測や異常検知など、その幅は広い。

 ここ1~2年の動向として、こうしたAIの精度を左右する大きく3つのテクノロジーに注目したい。1つめが、AIモデルの学習を効果的に行うための「自己教師あり学習」だ。2つめが複数のデータタイプを組み合わせた「マルチモーダル」である。そして最後がアルゴリズムの開発と運用を一体化する「MLOps(Machine Learning Operations)」である。

 以下、順番に説明していく。

「自己教師あり」で従来課題を解消

 「自己教師あり学習」はAIを実際にためにAIが欠かせない存在となっている。AIによる画像や音声、文字などの自動認識、ビッグデータを分析した制御の最適化、将来の予測や異常検知など、その幅は広い。

 従来のAI活用ではサンプルデータを正解として学習する「教師あり学習」が一般的である。例えば、猫を認識する画像認識AIを作ろうとした場合、猫が写った写真を数多く用意したり、対象とする1枚1枚の写真データに「これは猫です」といったラベルを付けたりする必要がある。

 このラベル付けを「アノテーション」と呼ぶ。機械学習のモデル作成で大きな手間のかかる作業の1つである。

 ラベル付けが適切でないと、不適切な判断をするAIを生み出しかねない。最近の研究では、データの量がAIの質を決める上で重要だと分かってきた。しかし、教師ありのアプローチでは大量のデータに正確なラベル付けをする必要があり、大規模なデータセット構築に多大なコストがかかってしまう。こうした背景から「自己教師あり学習」が注目されてきた。教師となる問題を一定のルールを基に自動作成し、生徒となるAIがそれに回答することで、学習し精度を上げていくトレーニング手法だ。

図 教師ありと自己教師ありの違い
図 教師ありと自己教師ありの違い
「自己教師あり」が学習や精度の問題を解消
[画像のクリックで拡大表示]

 例えば、データセットの一部を隠して問題を作り、AI自身が類推しながらそれを解くことで、学習していく。「私は明日、バスに乗って、学校に行く」という文章があったとき、「私は明日、xxxxx、学校に行く」という問題を作り、xxxxxに何が入るのかを予測する。

 最近では「私は明日」から「xxxxx」を予測するだけでなく、後方の「学校に行くから」「xxxxx」を予測することで文脈に対応する精度を上げるといった取り組みがなされている。