全4297文字

重回帰分析で要注意の「多重共線性」とは?

 重回帰分析の際に重要になるのが、分析者の常識やビジネス経験です。例えば上記の人材紹介会社の例では、「面談ブースの数」に係る回帰係数が「-20」と負の値になっています。「面談ブースの数が1つ増えると、売り上げ金額は20万円減少する」ことになりますが、ビジネス現場での経験や常識に照らし合わせて考えると少しおかしくないでしょうか?

 面談ブースが増えれば、普通は求職者をより多く企業に紹介できそうです。面談ブースが増えることで「売り上げが変わらない」ならともかく、「減少する」というのは理解に苦しみます。

 このように解釈ができない回帰係数が出てきた時は、「多重共線性」という問題を疑うべきです。多重共線性とは、言ってみれば類似度の高い説明変数の間で回帰係数の「取り合い」のような現象が発生しているケースです。もう少し正確に言うと、類似度の高い説明変数が複数あることで、どの説明変数にどのくらいの回帰係数を割り当てればよいか、その計算が不安定になってしまっているのです。ちなみに、類似度とは統計学の言葉でいう「相関」に当たります。

 もし、この人材紹介会社で「営業人数」に合わせて「面談ブースの数」を決めていたとしたら、「営業人数」と「面談ブースの数」は比例関係にあります。一方の数が増加すると、もう一方の数も同じように増える。つまり相関が高いわけです。相関の強い複数の説明変数を1つの重回帰分析に入れてしまうと、回帰係数の「取り合い」が発生し、適切な分析結果が得られないことがあるのです。

 もう少し整理すると、以下のようなケースでは多重共線性の発生が疑われます。

  • (1) ビジネス経験から想定される回帰係数の符号と、推定された回帰係数の符号が逆になっている場合
  • (2) ビジネス経験から考えて本来、被説明変数に対して大きな影響をもっているはずの説明変数の回帰係数が著しく小さい場合

 上記の(1)(2)のようなケースでは、疑わしい説明変数と相関が高い他の説明変数がないかを確認します。そして、相関が高い説明変数が他にあれば、その中のどれかを除外します。

資格試験問題にチャレンジ

 今回の内容の理解度を、「データ分析実務スキル検定」の問題でチェックしてみましょう。

サンプル問題

 重回帰分析によって作成された不動産価格の予測モデルを見ると、モデルに用いた説明変数の一つである土地面積の回帰係数が負の値として推定されていた。このような時の確認事項として最も適切なものはどれか。一つ選べ。

  • A)土地面積の単位が適切な単位となっているかどうか
  • B)土地面積の他に不動産価格と負の相関を示している説明変数はどれか
  • C)不動産価格を目的変数、土地面積を説明変数とした単回帰モデルにおける、回帰係数の値がなにか
  • D)説明変数の中で土地面積との相関が大きい変数があるかどうか