前回の「データの理解」プロセスでは、データの傾向を把握して分析に使えるかどうかを判断したり、異常値や欠損値がないかを確認したりしました。今回説明する「データの準備」プロセスでは、その結果を基にデータを加工し、分析に使える状態にします。

 作業に入る前に、覚えておきたい2つの用語を紹介します。「目的変数」と「説明変数」です。目的変数は分析の目的となる変数、説明変数は目的変数を説明する変数です。前回例に挙げた、体重から給食の摂取カロリーを予測するケースでは、摂取カロリーが目的変数、体重が説明変数になります。

 なお、目的変数は「従属変数」、説明変数は「独立変数」など、表現はいくつかあります。本講座では、目的変数と説明変数という表現を使います。

業務知識を基に適切なデータを選択

 では、データの準備を始めましょう。まずは、分析の目的に対して関係が深そうな説明変数を選択します。手元に集めたデータの関係性を考えずに全てを分析に使用してしまうと、思いもよらない結果が出ることもあります。

 例えば擬似相関です。擬似相関とは、実際には因果関係がないにもかかわらず、見えない要因によってまるで因果関係があるかのように推測されることです。一例が、アイスの販売量と水難事故件数の関係です。水難事故の件数が増えるとアイスの販売量が増えるため、因果関係があるように見えます。

 この両者には、気温が影響しています。これが見えない要因です。気温が高くなるほどアイスは売れ、水難事故も増えるというわけです。アイス販売に関する業務知識があれば、水難事故のデータがあったとしてもアイスの売れ行きには無関係だと分かるため、分析対象から削除できます。

 このように、データ分析で成果を出すには、分析の目的に合った説明変数を用いる必要があります。そこで重要になるのが、業務知識です。業務知識を基に無関係な項目を明確にして、そのデータを説明変数から除外することが必要です。

この先は会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経クロステック ラーニング/日経クロステックには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら