AIや機械学習を使ったデータ分析で特に重要な用語が「精度指標」だ。「回帰問題」と「分類問題」では、それぞれ利用する精度指標が異なる。再現率と適合率のバランスを取りたい場合は「F値」を用いる。
ビジネスの現場にデータ分析を取り入れると、さまざまな専門用語にでくわします。
「データ分析の結果、『F値』が70%となりました。これを踏まえて、まずは試験的に現場のユーザー対象にプロダクトを使ってみてもいいですか」。「かねて買収を検討しているこのAI(人工知能)スタートアップのモデルの『適合率』と『再現率』はそれぞれ85%と75%です。まずまずの精度なので、前向きに買収を検討しましょう」。
部下や外部コンサルタントなどからこんなふうに進言されたら、意思決定やディスカッションができますか。
こうした用語の中で、今回はAIや機械学習を使ったデータ分析で特に重要となる「精度指標」について解説します。精度指標とは機械学習などを基に作成したモデルに対し、「精度の高さはどのくらいか」を表す値です。
精度の影響は大きい
なぜ精度指標が大切なのでしょう。それはデジタル系のビジネス、とりわけAIや機械学習を使う現場では、予測モデルの「精度の良しあし」が意思決定に大きな影響を与えるためです。
例えば、AIを採用した融資審査システムを考えてみましょう。AIによる審査の精度が十分なら、オペレーションをある程度自動化できるかもしれません。しかし、精度が不十分な場合、審査を完全にAI任せにはできません。審査過程に人間の判断を入れつつ、その手間や人件費をいかに削減できるかがポイントになります。
このように、精度の高低はサービスやプロダクトの設計、オペレーション方法などに大きく影響します。ビジネス上の意思決定を正しく行うためにも、精度指標への理解が欠かせません。
回帰問題と分類問題の精度指標
ここでは機械学習の中でも特に予測モデルの精度が重要になる「教師あり学習」を例に、精度指標とは何かを見ていきましょう。
教師あり学習とは、分析の基になる値(インプット、特徴量となるデータ)と、分析結果として得られる正解の値(アウトプット、目的変数のデータ)を機械学習アルゴリズムに読み込ませて学習し、この2種類のデータ間の関係性をルールとして獲得することです。ちなみに、獲得されたこのルールが「予測モデル」なのです。
教師あり学習には「回帰問題」と「分類問題」があり、それぞれ利用する精度指標は異なります。回帰問題は、機械学習を使って求める目的変数(正解の値、アウトプット)が価格、売り上げ、人数などの数値となる問題です。
一方、分類問題は「有料会員が解約する・しない」といった2値を予測したり、複数のカテゴリーから該当する1つを求めたりする問題です。予測の内容が異なるので、精度を確かめる指標も違ってくるわけです。ここでは基礎を理解するため、精度指標の中でも比較的分かりやすい、分類問題で利用する「正解率」「適合率」「再現率」「F値」を見ていきましょう。