全3635文字
PR

データを扱う際には「統計」の知識は避けては通れない。統計学の基礎を学び、データの特徴を示す記述統計のプログラムをPythonで作ることで、統計の知識を深めていく。

 統計学は、日常生活のあらゆる場面で活用されています。例えば、天気予報やテレビの視聴率、選挙速報など、気づかない間に統計学の恩恵を受けています。

 近年はビジネスにおいてもデータに基づく意思決定が重視されるなど、統計学の知識はますます必要になっています。統計学を学ぶことで、データをどう分析するかという視点が身に付き、生活や仕事に役立つことでしょう。

 本稿では、統計学の基礎を解説し、データの特徴を示す「記述統計」のプログラムをPythonで作ります。

記述統計と推測統計

 統計学には「記述統計」と「推測統計」と呼ばれる手法があります(図1)。

図1●統計学には「記述統計」と「推測統計」がある
図1●統計学には「記述統計」と「推測統計」がある
[画像のクリックで拡大表示]

 「記述統計」とは、「データが持つ特徴を読み解くための手法」です。手元のデータから、「平均値」や「中央値」、「標準偏差」などの数値を算出することによって、そのデータが何を意味しているのかを読み解きます。この平均値や中央値、標準偏差といった数値の意味は後で解説しますが、これらはざっくり言えば「データの特徴を要約した数値」であると言えます。こうした数値を「要約統計量」と言います。

 身近な例で言うと、学生の試験結果がわかりやすいでしょう。「数学の点数が平均点より低かった」「国語より数学の偏差値の方が高かった」と、成績を確認したことはないでしょうか。これは、試験を受けた学生の国語や数学の点数のデータから平均点や偏差値を計算し、学生の成績における特徴を表しているのです。

 このような要約統計量の算出は、データ分析を行う上で必須の作業です。AIや機械学習の開発現場においても、まずはじめに手元のデータの特徴を把握することが重要だからです。記述統計は、データを取り扱う上ですべての基本となる手法と言えます。

 一方で、「推測統計」とは、「一部のデータから、全体のデータの性質を推測するための手法」です。例えば、テレビ番組の全国視聴率をイメージしてください。真の全国視聴率を算出しようとすると、国内に存在するすべてのテレビの端末に計測機器を取り付けて、データを収集しなければなりません。このように、対象のすべてを調査することを「全数調査」と言います。しかし、全数調査は現実的ではありません。そこで一部のデータを抽出して調査を行っています。そして、その一部のデータから全体のデータの特徴(全国視聴率)を推測しているのです。

 調査対象となる集団全体のことを「母集団」と言います。母集団の特徴を推定するために抽出した一部の集団のことを「標本」と言います。標本のデータから母集団の性質を推測しようというのが、推測統計の基本的な考え方です。

 本稿は「記述統計編」です。Part 1では要約統計量の求め方やグラフの読み方を解説し、Part 2では、それを応用して家計簿のデータを分析します。