ビッグデータは膨大なデータから相関関係を導き出し、これまで私たちが気づかなかった関係性に気づかせてくれる。つまり、見逃していた情報を教えてくれる、ということである。
これは野球でいえば、「見逃し三振を防ぐ」ことに似ていて、大きな意味がある。その関係性に気づいただけでも、ビジネス上の利益につながることがある。米アマゾン・ドット・コムのリコメンデーション(推奨)では、3割もの売り上げ向上があったと言われている。
「見逃し三振を防ぐ」のは確かに重要なことではあるが、同時に別の問題が生じることがある。それは「狼少年(の童話)」問題である。
ビッグデータでは一般に、因果関係よりも「相関関係」を重視する。ビッグデータから相関関係が見つかれば、それを予測に使おうとする。
しかし、そもそも相関関係と因果関係は違うものだ。因果関係がなくても、データ分析では相関関係が出てくる場合がある。
あなたは以下の問題をどう解くか
例えば、あなたに大学生の息子がいて、成績が振るわないとしよう。
そこで日本における全ての大学の授業のデータを分析したら、「授業中に学生が座っている席の位置」と「その学生の成績」に相関が見つかったとする。「教室の前の方に座っている学生ほど、成績が良かった」ということが分かったとしよう(図1)。
ここであなたは自分の息子に、どんなアドバイスをするだろうか。おそらくは「成績を上げるためには、授業中は教室の前方の席に座れ」と助言し、実際に息子は最前列に座ったとする。
これで息子の成績は上がるだろうか。