全2578文字
PR
『金融AI 成功パターン』
『金融AI 成功パターン』

 金融業務へのAI(人工知能)適用に関するノウハウを「パターン」として整理した『金融AI成功パターン』(日経BP、2023年)では、7つの基本パターンと、5つの上級パターンを紹介している。同書からさまざまな場面に適用できるノウハウとして、本連載では機械学習の基本とライフサイクルを取り上げ、連載の後半では「7つの基本パターンの概要」を抜粋して解説する。今回のテーマは「機械学習ライフサイクルの(5)機械学習モデル解釈・(6)デプロイ」である。(技術プロダクツユニットクロスメディア編集部)

 金融機関におけるビジネス的なAI活用では、教師あり学習を中心に考えていけば多くのテーマに対応することができますので、教師あり学習のライフサイクルを紹介します。教師あり学習のステップは、一般的に下記のような流れになります。

  • (1)テーマの決定
  • (2)学習データの準備
  • (3)モデリング
  • (4)精度評価
  • (5)機械学習モデル解釈
  • (6)デプロイ
  • (7)運用監視
  • (8)再学習・切り替え

 今回は(5)機械学習モデル解釈と(6)デプロイについて説明します。

(5)機械学習モデル解釈

 十分な精度の機械学習モデルが構築できたと判断した後には、機械学習モデルを解釈します。

 必ず実施することは、機械学習モデルがどの特徴量を重視しているかを見ることです。ドメイン知識から違和感がある特徴量が上位にきている場合や、1つの特徴量だけが重視され、残りの特徴量がほとんど利用されていないような状態の場合には、その特徴量をチェックします。精度は良いものの、不自然な特徴量が上位にきている場合や、単一の特徴量しか重視していない場合には、データに問題があることが多いからです。特にリーケージと呼ばれる予測時点では、利用できない情報を含む特徴量が含まれている場合、機械学習モデルの検定データに対する精度が高くとも、その機械学習モデルのメインとなる特徴量が本番では利用できず、著しく精度が落ちることになります。

 機械学習モデルが重要視している特徴量に問題がないことが確認できた後は、重要視している特徴量がそれぞれどの値のときに機械学習モデルがどのように振る舞うかの深掘りをします。高年収が融資可否に効くという特徴量選別に問題がなかったとしても、年収が低い方が融資審査の通過率が高くなるなど、ドメイン知識と相反する性質を持った機械学習モデルであれば使うことはできません。自動機械学習(AutoML:Automated Machine Learning)でも機械学習モデルの解釈機能は提供されていますが、機械学習モデルの特性が正しいかどうかは、ドメイン知識を基に人が最終判断を下す必要があります。

 機械学習モデルを解釈した上で、説明可能な機械学習モデルになるまで特徴量の選定やアルゴリズムの調整を行います。このとき、リーケージを除くことや説明可能な機械学習モデルを目指す上では、検定データでの精度は悪化することがあります。もっとも、これは機械学習プロジェクトでよく起こることであり、逆に不自然に高い精度の機械学習モデルが簡単にできたときこそ疑うべきともいえます。