全6753文字

 ビジネスの現場にデータ分析を取り入れると、さまざまな専門用語にでくわします。

 「データ分析の結果、『F値』が70%となりました。これを踏まえて、まずは試験的に現場のユーザー対象にプロダクトを使ってみてもいいですか?」

 「かねて買収を検討しているこのAI(人工知能)スタートアップのモデルの『適合率』と『再現率』はそれぞれ85%と75%です。まずまずの精度なので、引き続き前向きに買収の検討を進めましょう」

 例えば部下や外部コンサルタントなどからこんなふうに進言されたら、意思決定やディスカッションができるでしょうか? もちろん専門的な内容をできるだけ分かりやすく説明するのも、データサイエンティストなど専門家の役割の一つではあります。

 とはいえ、ビジネス上の意思決定に大きな意味を持つ用語の意味や背景については、一般のビジネスパーソンもある程度は知っておいた方がいいでしょう。重要な決断をより正確に、スムーズに進められます。

 こうした用語の中でも、今回はAIや機械学習を使ったデータ分析で特に重要となる「精度指標」について解説します。精度指標とは機械学習などを基に作成したモデルに対し、「精度の高さはどのくらいか」を表す値です。

 なおモデルとは、本講座シリーズの「統計モデルの基礎『回帰分析』でデータの背景を探ろう」でも紹介したように「収集したデータの背景にある事象を説明するためのもの」で、数式などの形で表します。本記事ではビジネスに必要な何らかの予測を求めるためのモデルを「予測モデル」と呼びます。

精度はサービスや製品の設計や運用にも影響

 なぜ精度指標が大事なのでしょう。それはデジタル系のビジネス、とりわけAIや機械学習を使う現場では、予測モデルの「精度の良しあし」が意思決定に大きな影響を与えるためです。

 例えば、AIを採用した融資審査システムを考えてみましょう。AIによる審査の精度が十分なら、オペレーションをある程度自動化できるかもしれません。しかし、精度が不十分な場合、審査を完全にAI任せにはできません。審査過程に人間の判断を入れつつ、その手間や人件費をいかに削減できるかがポイントになります。

 このように、精度の高低はサービスやプロダクトの設計、オペレーション方法などに大きく影響します。ビジネス上の意思決定を正しくするためにも、精度指標への理解が欠かせないのです。

回帰問題と分類問題の代表的な精度指標は?

 ここでは機械学習の中でも特に予測モデルの精度が重要になる「教師あり学習」を例に、精度指標とは何かを見ていきましょう。

 「教師あり学習」とは、分析の基になる値(インプット、特徴量となるデータ)と、分析結果として得られる正解の値(アウトプット、目的変数のデータ)を機械学習アルゴリズムに読み込ませて学習し、この2種類のデータ間の関係性をルールとして獲得することです(詳細は「数式なしで解説! 機械学習の基本的な仕組み」を参照)。ちなみに、獲得されたこのルールが「予測モデル」なのです。

 「教師あり学習」には「回帰問題」と「分類問題」があり、それぞれ利用する精度指標は異なります(表1)。回帰問題は、機械学習を使って求める目的変数(正解の値、アウトプット)が価格、売り上げ、人数などの数値となる問題です。

 一方、分類問題は「有料会員が解約する・しない」といった2値を予測したり、複数のカテゴリーから該当する1つを求めたりする問題です。予測の内容が異なるので、精度を確かめる指標も違ってくるわけです。本記事では基礎を理解するため、精度指標の中でも比較的分かりやすい、分類問題で利用する「正解率」「適合率」「再現率」「F値」を見ていきましょう。

表1●回帰問題、分類問題で利用する主な精度指標
表1●回帰問題、分類問題で利用する主な精度指標
[画像のクリックで拡大表示]