データの特徴をつかむための代表的な指標である、「平均」と「分布」。本講座ではこれをテーマに、データ分析で間違ってしまいがちなポイントとその回避方法を解説する。
まず誰でも知っている便利な統計指標の代表格である「平均値」について、今回と次回で取り上げる。「何だ、平均値なんて」と甘く考えないでほしい。便利な半面、多くの人が陥っている罠がある。
そもそも、なぜ平均値は至る所で使われているのだろうか。まずはプラスの面から考えてみよう。
ただ単にデータを並べて眺めていても、そこから情報を取り出すことは容易ではない。データが多くなればなるほど、人が処理できる限界を超えてしまう。
このようなとき、私たちはグラフにしたり、全体の数値の平均を取ったりする。これは、グラフや平均といった“1つのもの”に全体を集約させることで、理解や認知をしやすくするためだ。特に平均値は、データの“大きさ”についての代表値、または標準値としての役割を果たし得る。そのため用途も広く、非常に便利な指標となっている。
例えば、製品Aと製品Bについて、同じグループにその評価をしてもらうとする。グループ員個々の評価結果を並べるよりも、製品Aの平均評価は55点、製品Bの平均評価は87点、といった具合に、データ群を代表する値(平均値)に置き換えてしまえば、それぞれの製品の大まかな評価値を把握できる。製品Aと製品Bの評価を比較するのも簡単だ。また、日々の細かい売り上げの振れには注目せず、1カ月ごとの売上高の推移をざっくりと見たい場合など、毎月の売上高の代表値として平均値を使うことのメリットは大きい。
なぜなら、日々のデータや時間データを全て表示しても、月単位での推移を見るには過剰な情報でしかないからだ。そこで平均値を使い、その過剰な情報をならしてしまうことができる。このように、たくさんのデータを平均という1つの値に集約することで、実務上、多くのメリットを享受できる。しかも平均値は、いまさら説明を求められることはなく、誰にでも理解してもらえるという万能ツールの1つと言えるだろう。
このように、誰もが一度は使ったことがある平均値であるにもかかわらず、「平均値とは、すなわちどういう値なのか」と聞くと、答えに窮する人が多い。