前回までで、分析するデータの準備が終わりました。今回はいよいよ、データ分析のモデリングに入ります。

 CRISP-DMの「モデリング」プロセスでは、適用可能なモデリング手法を検討します。モデリング手法を選ぶ際には、いくつかの観点があります。

 その1つが、分析の目的です。売上予測のような数値予測なのか、文字認識のような判別予測なのかによって適したモデルは異なります。

 分析の目的別に、代表的なモデリング手法をまとめました(表1)。

表1●代表的なモデリング手法(分析の目的別)
数値予測 判別予測
線形回帰分析 ロジスティック回帰分析
ニューラルネットワークニューラルネットワーク
決定木分析 (KNIMEでは数値予測は不可) 決定木分析
ランダムフォレスト ランダムフォレスト
XGBoostXGBoost

説明力から検討する

 もう1つ重要な観点が、説明力です。「なぜその分析結果になったのかをどこまで説明可能か」を意味します。

 筆者はこれまで数多くのデータ分析プロジェクトに携わってきましたが、そのほとんどで、分析モデルに説明力が求められました。例えば、自動車の自動運転で使われる、周囲の環境認識のモデルについて考えてみましょう。

 モデルの精度がどれほど高くても、事故を完全に防げるわけではありません。事故が起こったときにモデルに求められるのは、原因究明です。モデルがどのように判断したかが後から分からないと、人間は原因を究明できません。結果として予測モデル自体の改善もできないということです。

 自動運転だけではありません。企業が採用試験でAI(人工知能)を導入したとします。ある人をAIが不採用と判断した場合、なぜ不採用になったのか人事担当者も本人も理由を知りたいはずです。

 モデルによっては、分析の内容が複雑すぎて人間にはその過程が理解できないケースがあります。こうしたモデルは、説明力が高いとは言えません。特に業務で使用する場合には、モデルにどこまでの説明力を求めるかをきちんと考えましょう。

この先は会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経クロステック ラーニング/日経クロステックには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら