全2769文字

 一連のデータ分析作業の中で、「データの理解」は特に重要なプロセスと言えます。手元のデータを確認し、分析の目的に対して必要な変数がそろっているのか。不要な変数や異常な値が入っていないか。どんな特徴はあるのかなどを確認していきます。

 実際にどう確認するか、具体的に見ていきましょう。

データの範囲を考える

 まず、分析に使うデータの傾向や性質を大まかに確認します。平均値や最大値、最小値、分散値などデータの特徴を示す値(統計量)を使います。

 小学校6年生を対象に、個人ごとに最適な摂取カロリーに従って給食を提供するモデルを考えてみましょう。体重から摂取カロリーを予測するモデルとすると、全生徒の体重と1日の摂取カロリーのデータを集めます。

 集めたデータを基に体重の平均値を出したら40kgだったとします。このときに最大値が400kgだった場合、入力ミスが考えられます。ゼロを1つ多く入力したと考えるのが妥当でしょう。

 こうした入力ミスは、手作業で作られたデータではよく見られます。ゼロが1つ多かったり足りなかったりする場合や、小数点を打ち忘れる場合などです。

 次に、最大値が100kgの場合はどうでしょう。100kgならば、実際にこの体重の児童がいるかもしれません。ただし平均よりもかなり重い体重なので、教員のデータが混ざっていないか確認するといったこともできます。

 入力ミスかどうかは判断が難しい場合もありますが、重要なのは「分析に適さない値が入っていないかを確認する」ことです。データの統計量と、業務内容・データの入力方法を考慮して判断しましょう。

 データの傾向を可視化して判断する方法もあります。図1はヒストグラムという図です。

図1●ヒストグラムで度数ごとの内訳を見る
図1●ヒストグラムで度数ごとの内訳を見る
[画像のクリックで拡大表示]