一連のデータ分析作業の中で、「データの理解」は特に重要なプロセスと言えます。手元のデータを確認し、分析の目的に対して必要な変数がそろっているのか。不要な変数や異常な値が入っていないか。どんな特徴はあるのかなどを確認していきます。

 実際にどう確認するか、具体的に見ていきましょう。

データの範囲を考える

 まず、分析に使うデータの傾向や性質を大まかに確認します。平均値や最大値、最小値、分散値などデータの特徴を示す値(統計量)を使います。

 小学校6年生を対象に、個人ごとに最適な摂取カロリーに従って給食を提供するモデルを考えてみましょう。体重から摂取カロリーを予測するモデルとすると、全生徒の体重と1日の摂取カロリーのデータを集めます。

 集めたデータを基に体重の平均値を出したら40kgだったとします。このときに最大値が400kgだった場合、入力ミスが考えられます。ゼロを1つ多く入力したと考えるのが妥当でしょう。

 こうした入力ミスは、手作業で作られたデータではよく見られます。ゼロが1つ多かったり足りなかったりする場合や、小数点を打ち忘れる場合などです。

 次に、最大値が100kgの場合はどうでしょう。100kgならば、実際にこの体重の児童がいるかもしれません。ただし平均よりもかなり重い体重なので、教員のデータが混ざっていないか確認するといったこともできます。

 入力ミスかどうかは判断が難しい場合もありますが、重要なのは「分析に適さない値が入っていないかを確認する」ことです。データの統計量と、業務内容・データの入力方法を考慮して判断しましょう。

 データの傾向を可視化して判断する方法もあります。図1はヒストグラムという図です。

図1●ヒストグラムで度数ごとの内訳を見る
[画像のクリックで拡大表示]

この先は会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経クロステック ラーニング/日経クロステックには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら