全4060文字
PR

データがたくさんあっても、その質に難があればデータ分析で有効な結果は出せない。データの質を見極めるには、データを集計し、グラフを作成するなどして可視化する。その際、「このような集計値やグラフになるはずだ」と予想しておくことが重要だ。

 「弊社のデータはいわゆるビッグデータで、データサイエンティストがいれば何か価値を生み出してくれるだろう」

 もし、あなたが会社の幹部からこのような発言を聞いたら、注意が必要です。「データが(たくさん)ある」ことと、機械学習をはじめデータサイエンスの技術を適用して価値が引き出せるデータを蓄積していることは、別の話だからです。

 しかしこのことを理解している人は多くありません。筆者も、このような誤解を持つ人や組織に実際に遭遇しています。

 なぜ、このような誤解が発生してしまうのでしょうか。その理由を考えるには、一口に蓄積されたデータといっても、「偶然蓄積されたデータ」と「意図的に蓄積したデータ」は異なることを理解する必要があります。

偶然が増える理由

 統合基幹業務システム(ERP)や顧客関係管理システム(CRM)を利用する企業では、データ分析以外の業務で必要なデータも多く保有しています。社員の多くが、日常的に何かしらのデータに触れているでしょう。

 身近にデータがあるため「捨てるのがもったいないからとりあえず蓄積しておこう」と考え、そのまま保存するのです。その結果、「偶然蓄積されたデータ」が多く生まれます。

 M&Aが多い業界では、企業合併を繰り返した結果、大量の顧客データベースや取引ログデータなどを保有することになった組織もあります。このように、「偶然蓄積されたデータ」は至る所で見られます。

 そして2010年代に入って、「ビッグデータ」という言葉がもてはやされました。「(偶然蓄積された大量データであっても)データさえあれば価値を出せる」と考え、データ分析プロジェクトやAIプロジェクトのPoC(概念実証)に取り組んだケースもあるのではないでしょうか。

 しかし実際は、筆者の経験から言っても「偶然蓄積されたデータ」では、いくら分析したところで、そこから価値を引き出すことは困難です。「意図的に蓄積されたデータ」でないと価値を出すことが難しいというのが正直なところです。

図 データ分析の目的
図 データ分析の目的
データを分析し、そこから得られる示唆を意思決定や行動に活用する
[画像のクリックで拡大表示]

「データの質」を考える

 「偶然蓄積されたデータ」と「意図的に蓄積されたデータ」を分けるものは何でしょうか。それが、「データの質」です。そこで、今回はこの「データの質」について考えていきましょう。

 データの質とは何かを考えるには、まずはデータ分析の目的に立ち戻る必要があります。データ分析は、データを処理し、そこから得られる示唆を意思決定や行動に活用する営みです。その示唆は、ただの「情報の断片」では不十分であることが多く、「分析対象の構造」に迫るものである必要があります。

 例えば売り上げ向上を目的としたデータ分析であれば、売り上げに影響する事業や組織の構造を解き明かすことが求められます。この目的に合わないデータは、質が悪いと言えるのです。

 ここからは、筆者が実際に経験した「こんなデータは嫌だ」という例をいくつかご紹介します。いずれもフィクションですが、実体験に基づいています。