全4461文字

 「弊社のデータはいわゆるビッグデータで、データサイエンティストがいれば何か価値を生み出してくれるだろう」

 もし、あなたの会社の幹部からこのような発言を聞いたら、注意が必要です。「データが(たくさん)ある」ことと、機械学習をはじめデータサイエンスの技術を適用して価値が出せるデータを蓄積していることは、別の話だからです。

 しかしこのことを理解している人は多くありません。筆者も、このような誤解を持つ人や組織に実際に遭遇しています。

 なぜ、このような誤解が発生してしまうのでしょうか。その理由を考えるには、「偶然蓄積されたデータ」と「意図的に蓄積したデータ」が異なることを理解する必要があります。

 統合基幹業務システム(ERP)や顧客関係管理システム(CRM)を利用する企業では、データ分析以外の業務で必要なデータも多く保有しています。社員の多くが、日常的に何かしらのデータに触れているでしょう。身近にデータがあるため「捨てるのがもったいないからとりあえず蓄積しておこう」と考え、そのまま保存するのです。その結果、「偶然蓄積されたデータ」が多く生まれます。M&Aが多い業界では、企業合併を繰り返した結果、大量の顧客データベースや取引ログデータなどを保有することになった組織もあります。このように、「偶然蓄積されたデータ」は至る所で見られます。

 そして2010年代に入って、「ビッグデータ」という言葉がもてはやされました。「(偶然蓄積された大量データであっても)データさえあれば価値を出せる」と考え、データ分析プロジェクトやAIプロジェクトのPoC(概念実証)に取り組んだケースもあるのではないでしょうか。

 しかし実際は、筆者の経験から言っても「偶然蓄積されたデータ」では価値を出すことが困難です。「意図的に蓄積されたデータ」でないと価値を出すことが難しいというのが正直なところです。

 「偶然蓄積されたデータ」と「意図的に蓄積されたデータ」を分けるものは何でしょうか?それが、「データの質」です。そこで、今回はこの「データの質」について考えていきましょう。