全4225文字
PR

 手元にあるデータに対してやみくもに分析を進めてしまうと、途中でエラーが起きたり、分析結果にゆがみが生じたりします。エラーが出て、そもそも分析結果が出力されない場合は、実はそこまで大きな問題にはなりません。しかし、エラーが出ないままゆがんだ分析結果を得て、それを基にビジネス上の意思決定をしてしまうと大変です。本来はデータ分析を用いてビジネスで成果を上げるはずが、逆に損失をもたらす危険性すらあります。

 では、ゆがんだ分析結果を生み出さないためにはどうすればいいのでしょう。まずは何が原因で分析結果がゆがんでしまうのか理解することが必要です。そのうえで、ゆがみの原因に合わせて適切な「データの前処理」を実施しましょう。

「ふぐの毒抜き」くらい重要

 データの前処理とは、集計や分析に用いる生データを整えて加工すること全般を指します。読者の皆さんの中には、「データ分析は前処理の時間が8割を占める」と聞いたことがある人もいるでしょう。実際、データの前処理は、それだけの時間をかけてでも必要な工程です。

 というのも、データ分析の品質はデータの前処理によってほぼ決まってしまいます。前処理なしでデータ分析をするのは、料理に例えると下ごしらえを省いていきなり調理を始めるようなイメージです。どんなに高価な食材でも、適切な下ごしらえなしではおいしい料理にはなりません。中には、ふぐのような毒を含む食材もあります。下ごしらえの一環として毒抜きをしていないふぐ料理には、時として死に至る危険性もあります(図1)。

図1●データ分析の結果をビジネスに役立てるには、きちんとした前処理が重要
図1●データ分析の結果をビジネスに役立てるには、きちんとした前処理が重要
[画像のクリックで拡大表示]

 生データにも同様に、分析結果にとって「毒」になるような要素が含まれていることがあります。データ分析において前処理をしないことは、下ごしらえなしでふぐを食べるのと同じくらい危険なことなのです。

 ここからは、データの前処理に対する基本的な考え方や、具体的な対処方法を見ていきましょう。データの前処理にはさまざまな手法がありますが、今回は使用頻度の高い「欠損値処理」、「外れ値処理」について主に解説します。