全1789文字
PR

データを扱う際には「統計」の知識は避けては通れない。統計学の基礎を学び、データの特徴を示す記述統計のプログラムをPythonで作ることで、統計の知識を深めていく。

 では、用意した「架空のプロ野球チームの選手一覧」の内容を見ていきましょう。データの「height」(身長)の変数に注目して、データを整理・要約していきます。

 まずは身長の分布の傾向を大まかに把握するために「ヒストグラム」を作成します。その後で、分布の中心を調べるために「平均値」と「中央値」を求めます。順番に説明していきましょう。

 「ヒストグラム」とは、量的変数のデータをいくつかの区間でグループ分けし、各グループのデータの数を棒グラフで表したものです。ここでは、選手の身長を20個の区間に分け、各区間の身長に該当する選手が何人いるのかを示します。リスト2を入力して実行してください。

リスト2●身長のヒストグラムを描画するコード
リスト2●身長のヒストグラムを描画するコード
[画像のクリックで拡大表示]

 Plotly Expressのhistogram関数を使って、横軸が身長(x='height')を20個に分けた区間(nbins=20)を示し、縦軸が各区間のデータの個数を示すヒストグラムを描画しています。fig.show()で、そのヒストグラムを画面に表示します。

 実行結果は図7になります。このプロ野球チームの選手の身長は約160~200cmの間で分布していて、180cm付近の選手が多いことがわかります。また、分布の形は180cm付近を中心とした山なりになっています。

図7●リスト2の実行結果
図7●リスト2の実行結果
[画像のクリックで拡大表示]

 このように、ヒストグラムを描くことで、データの大まかな傾向を視覚的に捉えることができます。

 さらにデータの詳細を調べるために、「平均値」と「中央値」を算出しましょう。そうすることで、データの分布の中心位置を確認できます。

 「平均値」は、すべてのデータの値の合計値を、データの個数で割ることで得られる値のことです。

 選手の身長の平均値を求めてみましょう。リスト3を入力して実行してください。次のように平均値を算出しています。

リスト3●身長の平均値を求めるコード
リスト3●身長の平均値を求めるコード
[画像のクリックで拡大表示]
[画像のクリックで拡大表示]

 「/」はPythonの除算の演算子です。数学の「÷」と同じ意味です。リスト3の実行結果は次のようになります。

[画像のクリックで拡大表示]

 選手の身長の平均値は、180.85083160083175cmと求められました。