PR

●統計に必須の箱ひげチャートって、知ってる?

 統計学が脚光を浴びてしばし時間がたつが、いまだ底堅いブームを維持しているのが現状のようである。

 「そりゃ、ビッグデータの時代には統計が必須だからな」

 うん、そうだな。で、その統計でよく用いられるグラフって何だと思う?

 「うーむ、棒グラフ──いや、折れ線グラフか」

 ま、どっちもよく使うんだろうけど、ここで取り上げたいのは「箱ひげチャート」だ。これはデータ群のばらつきを視覚化したもので、一般的にはあまり利用されないものの、統計には頻繁に登場する。そこで図1を見てもらいたい。

箱ひげチャートは、最大値、上側ヒンジ(第3四分位)、中央値、下側ヒンジ(第1四分位)、最小値を示す5つのパートから成っている。まずはこの構造を理解しよう
図1 箱ひげチャートの構造
図1 箱ひげチャートの構造
[画像のクリックで拡大表示]

 こちらはA列とB列に元データがあって、それぞれの列のデータ群のばらつきを箱ひげチャートで視覚化したものだ。箱ひげチャートは5つの要素から成っている。上から順に見ると、箱の上にひげのように伸びた線の先が「最大値」、箱の上部が「上側ヒンジ」でデータ群の小さい値から数えてちょうど4分の3番目、いわゆる第3四分位にくる値を指す。

 その次が「中央値」でこちらはデータ群の中央に来る値だ。さらに箱の下部が「下側ヒンジ」で、こちらはデータ群の小さい値から数えて4分の1番目にくる第1四分位を指す。そして最後に箱の下から伸びたひげの先が「最小値」である。