DX(Digital Transformation)に欠かせないデータ活用基盤を構築する際は、「Think Big, Start Small」の思想が重要である。できるところから小さく始めて、自社に適した基盤を段階的に構築していくアプローチが望ましい。とはいえ、「実装しやすい小さい領域」や「優先すべき機能」とは何か、また段階的に機能拡張する手順はどうすべきか分からないケースも多いだろう。
今回は、データ活用基盤を構築する際のプロジェクトの進め方を手順に沿って解説する。
標準プロセスを参考にデータ分析の流れを整理
手順を紹介する前に、構築の初期に考慮すべき重要なポイントとして、まず自社に必要なデータ活用の機能を整理するやり方を押さえておきたい。筆者は「データ分析プロセス」「扱うデータの構造」「処理方式」という3つの観点から機能を検討することが重要だと考えている。
「データ分析プロセス」については、「CRISP-DM(CRoss-Industry Standard Process for Data Mining)」と呼ばれる標準プロセスが参考になる。これは米SPSS(現米IBM)、米Teradata(テラデータ)、ドイツのDaimler(ダイムラー)、米NCR、オランダのOHRAなどが構成するコンソーシアムが開発したデータマイニングのフレームワークである。
CRISP-DM のプロセスでは、データの発生からデータを使って価値を生み出すまでの流れを6段階のライフサイクルとして捉える。
- ビジネスの理解
- データの理解
- データの準備
- モデル作成
- 評価
- 展開
データ活用基盤に必要な機能は、このライフサイクルを意識して検討する。そのうえで、「データを収集する階層」「データを保管する階層」など、必要な機能を階層別に整理していく。階層ごとにどんな機能が必要かは、「扱うデータの構造」と「処理方式」を踏まえて洗い出す。
「扱うデータの構造」については、「構造化データ」と「非構造化データ」という2種類のデータを押さえよう。構造化データとは、データ構造を定義してリレーショナルモデルを基にしたデータベース(RDB)に格納できるデータを指す。非構造化データとは、文書や画像のようなデータ構造の定義が困難なデータを指す。自社で扱うデータがこの2つのどちらに当てはまるかによって、必要な機能も変わってくる。
「処理方式」については、一定期間データを蓄積してからまとめて処理する「ストック型の処理」と、時系列に発生するデータを連続的に処理する「フロー型の処理」の2つに大別できる。例えば企業の財務・会計のデータなどは一定期間の請求・支払いをまとめてストック型で処理することが多い。一方、IoT(Internet of Things)センサーが生み出す大量データをリアルタイムで分析するような処理は、後者のフロー型処理に該当する。処理方式ごとに、データ分析基盤に必要な機能も異なる。
レファレンスを基に具体的に必要な機能を検討
筆者が所属する野村総合研究所では、ここまで紹介した「データ分析プロセス」「扱うデータの構造」「処理方式」を考慮しつつデータ活用基盤に求められる機能要素を8階層に分け、レファレンスアーキテクチャーの形に整理している。下図の青色の部分が8つの階層に該当する。