全4297文字

 ビジネスの現場にとって有用なデータ分析をするには、「統計モデル」の理解が欠かせません。統計モデルとは収集したデータを統計の観点から抽象化し、データの背景にある事象を説明するためのもので、数式などの形で表します。

 企業でデータ分析を進めていくと、ある変数と別の変数の関係を定量的に表し、理解を深めたくなることがよくあります。こうしたシーンで有効なのが統計モデルなのです。ここでは統計モデルの基礎の一つ、「回帰分析」を見ていきましょう。

 仮に、あなたが人材紹介会社A社の首都圏エリアのマネジャーだったとしましょう。売り上げの目標金額を決めるため、データを分析しています。まずは管轄する首都圏の各支店の営業人数と売り上げの値を、以下のような散布図にしてみました(図1)。

図1●ある人材紹介会社で、支店ごとの売り上げ金額と営業人数を散布図にしたもの
図1●ある人材紹介会社で、支店ごとの売り上げ金額と営業人数を散布図にしたもの
[画像のクリックで拡大表示]

 ここでは横軸に営業人数、縦軸に売り上げ金額を取っています。一つひとつの点は支店を表します。散布図を眺めていると、さまざまな考えが浮かんできます。

 「支店Aは営業人数が少ないから売り上げも少ないのは当然だ。しかし、営業人数の割当には頑張っている気がする」「支店Bは営業人数が多いぶん、売り上げも大きい。しかし、他の支店と比べてみると、もっと伸びしろがあるのではないか?」

 このような疑問を持ったあなたは、「営業人数と売り上げ金額の関係を定量的に表現できないだろうか? そう、この図に1本の直線を引くように……」と考え始めました。ちょうどそのとき、隣にいた若手がパソコンをのぞき込んで話しかけてきました。

 「いい感じに回帰分析できそうな散布図ですね!」

 「回帰分析? 何だ、その難しそうな話は?」

バラバラのデータを定量化して「1本の直線」を求める

 回帰分析とは、端的に言うと下の図のようにバラバラと点在するデータの傾向を示すために「1本の直線」を引く分析手法です(図2)。

図2●営業人数と売上金額の傾向を定量的に表す直線を求める
図2●営業人数と売上金額の傾向を定量的に表す直線を求める
[画像のクリックで拡大表示]

 先ほどの人材紹介会社の散布図を例に、回帰分析の手順を見て行きましょう。今、散布図上には支店ごとの営業人数と売り上げ金額のデータが点在しています。これらのデータを基に、営業人数と売り上げ金額の傾向をできるだけ定量的に表す直線を求めるのが分析のゴールです。

[分析の手順]
  • (1) 散布図の上に、適当に赤い直線を引きます。
  • (2) 1で引いた赤い直線と各点の差を計算します。この差を「残差(ざんさ)」と呼びます。
  • (3) それぞれの残差を2乗した値を計算し、それらを足し合わせます。この値を「二乗和誤差」と呼びます。
  • (4) 「二乗和誤差」を最小にするような直線を求めます。少し数学的な表現をすると、図上の直線は切片と傾きで定義できます。つまり「二乗和誤差」が最小になる切片と傾きを計算すれば、直線を求めることができます。

 以上のような回帰分析の結果、「1本の直線」が得られると何がうれしいのでしょうか? ここでは、以下のような式で表せる直線を求められたとします。何に使えそうでしょうか?

売り上げ金額 = 200万円 × 営業人数 + 100万円

 この式を見ると、「営業人数を1人増やすごとに、平均的にどのくらい売り上げ金額が増加するか」が分かります。例えば営業人数が10人の支店では、

売り上げ金額 = 200万円 × 10人 + 100万円
       = 2100万円

 ……となり、平均的に2100万円の売り上げが見込めるはずだと分かります。