全4225文字

データの「欠け」「偏り」をどう補う?

 ここではニュース配信アプリケーションの分析を例に見ていきましょう。上司からアプリのユーザーの特徴を分析してくれと頼まれたあなたは、ユーザーが会員登録時に入力した情報を基に、図2のようにデータを整理しました。

図2●ユーザーの基本情報
図2●ユーザーの基本情報
ニュース配信アプリケーションで、ユーザーが会員登録時に入力した情報
[画像のクリックで拡大表示]

 このデータに対して、前処理として「欠損値処理」「外れ値処理」をそれぞれどう実施するか見ていきましょう。

欠損値の確認と欠損値処理

 ユーザーの基本情報を見ると、「配偶者の年収」という項目はほとんどが「無回答(NULL)」でした。このように何らかの理由により記載されなかった/欠落した値のことを「欠損値」と呼びます。欠損値が多いデータ項目から、全体の分布や平均値などの特徴を調べ、分析するのは困難です。

 欠損値が生じる原因としては、今回の例のように「ユーザー登録時に無回答の人が多い項目である」ほか、「担当者のミスで未入力になっている」などのケースが考えられます。

 欠損値に対しては大きく2つの対処方法があります。

・平均値や最頻値などの値で補完する
欠損値を含むデータが分析に必要な場合は、平均値や最頻値などの値で補完します。また、欠損値を含むデータを全て除外してしまうと分析に耐えられる量のデータ数が確保できない場合などは、できる限り補完を検討しましょう。

・行ごとまたは列ごと除外する
除外しても分析結果に大きな影響を与えない変数は、列ごと除外します。また、あまりにも欠損値の割合が高い行や列があるデータは、情報量が少なく分析に耐えられないので分析対象から除外することを検討しましょう。

 以上のように欠損値を含むデータの取り扱いについては、欠損値の割合や分析の目的などによって補完か除外かの判断が変わります。分析によって何が知りたいのか、データの内容はどうかをよく確認したうえで対処を進めましょう。