有用なデータ分析には「統計モデル」の理解が欠かせない。統計モデルの基礎というべきものが「回帰分析」である。説明変数が複数ある場合は、「重回帰分析」を利用する。
ビジネスの現場において有用なデータ分析をするには、「統計モデル」の理解が欠かせません。統計モデルとは収集したデータを統計の観点から抽象化し、データの背景にある事象を説明するためのもので、数式などの形で表します。
企業でデータ分析を進めていくと、ある変数と別の変数の関係を定量的に表し、理解を深めたくなることがよくあります。こうしたシーンで有効なのが統計モデルです。ここでは統計モデルの基礎の一つ、「回帰分析」を見ていきましょう。
仮に、あなたが人材紹介会社A社の首都圏エリアのマネジャーだったとしましょう。売上の目標金額を決めるため、データを分析しようとしています。まずは管轄する首都圏の各支店の営業人数と売り上げの値を、散布図にしてみました。
ここでは横軸に営業人数、縦軸に売り上げ金額を取っています。一つひとつの点は支店を表します。散布図を眺めていると、さまざまな考えが浮かんできます。
「支店Aは営業人数が少ないから売り上げも少ないのは当然だ。しかし、営業人数の割当には頑張っている気がする」「支店Bは営業人数が多いぶん、売り上げも大きい。しかし、他の支店と比べてみると、もっと伸びしろがあるのではないか」。
このような疑問を持ったあなたは、「営業人数と売り上げ金額の関係を定量的に表現できないだろうか。そう、この図に1本の直線を引くように・・・」と考え始めました。ちょうどそのとき、隣にいた若手がパソコンをのぞき込んで話しかけてきました。
「いい感じに回帰分析できそうな散布図ですね!」
データから「1本の直線」を求める
回帰分析とは、端的に言うとバラバラと点在するデータの傾向を示すために「1本の直線」を引く分析手法です。
先ほどの人材紹介会社の散布図を例に、回帰分析の手順を見て行きましょう。今、散布図上には支店ごとの営業人数と売り上げ金額のデータが点在しています。これらのデータを基に、営業人数と売上金額の傾向をできるだけ定量的に表す直線を求める手順は以下の通りです。
(1)散布図の上に、適当に赤い直線を引きます。
(2)(1)で引いた赤い直線と各点の差を計算します。この差を「残差(ざんさ)」と呼びます。
(3)それぞれの残差を2乗した値を計算し、それらを足し合わせます。この値を「二乗和誤差」と呼びます。
(4)「二乗和誤差」を最小にするような直線を求めます。少し数学的な表現をすると、図上の直線は切片と傾きで定義できます。つまり「二乗和誤差」が最小になる切片と傾きを計算すれば、直線を求めることができます。
以上のような回帰分析の結果、「1本の直線」が得られると何がうれしいのでしょうか。ここでは、以下のような式で表せる直線を求められたとします。何に使えそうでしょうか。
売上金額=200万円×営業人数+100万円
この式を見ると、「営業人数を1人増やすごとに、平均的にどのくらい売上金額が増加するか」が分かります。例えば営業人数が10人の支店では、以下のように平均的に2100万円の売上が見込めるはずだと分かります。
売上金額=200万円×10人+100万円=2100万円