全2787文字

 前回に続き、機械学習モデルを構築・運用するステップを見ていきます。今回はステップ3の「データ準備」からです。

ステップ3:データ準備

 AIのモデルを構築するためには、データの準備が必要になります。ビジネス課題に関連したデータを見つけ、網羅的かつ大量に収集し、機械学習モデルの作成に利用できるように加工することが必要です。

 網羅的かつ大量のデータが必要な理由は2つあります。1つはモデルが対応すべき様々な現象をカバーするためです。食品や雑貨を取り扱うようなスーパーマーケットを考えてみましょう。顧客の年齢・性別・訪問時刻などによって様々な利用パターンが考えられます。利用パターンの違いにより、顧客の購入率や金額が異なる可能性は非常に高いと考えられます。

 このような場合、このスーパーマーケットのポイントカードを持つ顧客のデータだけを利用して、利用パターンと購入率や利用金額の関係を示すモデルを構築してしまうと、カード持たない会員の傾向を見逃すことになってしまい、実際の購買行動を反映したモデルが構築できません。

 もう1つの理由は、同じ条件でも結果が異なる可能性があるためです。スーパーマーケットの売り上げの予測を考えてみましょう。店舗の売り上げは、曜日や天気、気温など、データで測定できる条件が全て同じであってもばらつきます。モデルを構築する際には、このばらつき具合をアルゴリズムが推定します。その際に、データが少ないほど不確実な部分が多く、ばらつきは大きくなってしまいます。ばらつきを小さくして精度を向上するためには、多くのデータが必要となるのです。

最も時間がかかるのはデータの加工

 十分な量のデータを収集した後は、機械学習に投入できるようにデータを加工します。これまでのプロジェクト経験からみても、最初からデータが整然とした形で構造化されていることはほとんどありません。異なるフォーマットで、個別のファイルやデータベースに保存されているケースがほとんどです。

 機械学習を行うためには、これらのデータのフォーマットを統一し、構造化したデータセットとして統合する必要があります。データの欠損値や異常値の処理も必要です。

 一般的に初めてモデルを構築する場合には、このデータ整備に最も多くの工数がかかります。既に有効な機械学習モデルを作っている場合には、機械学習に必要なデータを蓄積したうえで、機械学習モデルの構築に利用できるように加工する仕組みが存在するはずです。

 機械学習モデルの構築により解決したい課題に対して、利用可能なデータが不足する場合には、モデルの構築よりも先にデータの充実が必須となります。例えば、従業員の頭の中に知見として蓄えられている情報はデータ化することで初めて、機械学習モデルの構築に利用できるようになります。また最近はオープンデータのように様々な外部データを利用できます。多様な方法で利用可能なデータを増やすことができるようになっています。

 とはいえ、自らの会社・組織が抱える固有の問題に直結するデータは、自身で拡充していく必要があります。また常に新しいデータを使い続けることも欠かせません。モデルを構築するためには、構築時点までの過去データがあれば十分ですが、将来の状況の変化に対応していくには、常に新しいデータを収集し続けることが必要です。