PR

今回は回帰分析や決定木など、ビジネスで頻繁に利用される代表的なアルゴリズムを解説する。そのうえで、実務でどのようにモデルの作成を進めていくのか、架空の事例を踏まえてその手順を説明していく。

 前回はAI(人工知能)の「中身」ともいえる、モデルを構築するためのアルゴリズムの概要や分類について解説しました。今回はいくつかの代表的なアルゴリズムを掘り下げて説明していきます。

 今回説明するのは、結果を示すデータである目的変数がある「教師あり学習」のうち、識別系と予測系に分類されるアルゴリズムです(図1)。ただし識別系、予測系のそれぞれに分類されるアルゴリズムでも、シンプルなロジックを作るのものと、複雑なロジックを作るものがあります。さらに、複雑なロジックを作るアルゴリズムは、分類、予測結果が計算・出力されるまでの過程を人間が理解しやすい「ホワイトボックス」と言われるものと、理解しにくい「ブラックボックス」と言われるものに分かれます。

図1●今回説明するアルゴリズム
図1●今回説明するアルゴリズム
[画像のクリックで拡大表示]

 今回は代表的な、(1)回帰分析、(2)ロジスティック回帰分析、(3)決定木(回帰木)、(4)識別系のニューラルネット、の4つについて説明したいと思います。

予測系のシンプルなアルゴリズム:回帰分析

 回帰分析は、比較的シンプルなアルゴリズムです。ビジネスに用いられる最も基本的なアルゴリズムといえます。これだけでも理解しておいて損はありません。

 回帰分析は、予測したい値である目的変数を求めるために、予測に使用する変数である説明変数にそれぞれ係数をかけて、さらに定数を加えます。

 以下のような数式がイメージできれば大丈夫です。

Y=A0 + A1X1 + A2X2 +…
(Y:目的変数、Xn:説明変数、A0:定数、A1~n:係数)

 この数式は中学校で習った直線の公式と同じです。

 数式よりも具体例のほうがイメージしやすい場合は、表1のような10日分の売り上げデータを想定します。このデータから翌日の売り上げを説明するモデルを作成すると、以下のようになります。

表1●10日分の売り上げデータ
表1●10日分の売り上げデータ
[画像のクリックで拡大表示]

(翌日の売り上げ)= 80.14 + 0.71×(当日の売り上げ)- 0.28×(昨日からの売り上げ増加量)

 この数式は「当日の売り上げに0.71を乗じて、前日から当日までの売り上げの増加量にマイナス0.28を乗じたものを加え、80.14を足せば翌日の売り上げ量が予測できる」ということを示しています。数式中の「+80.14」「+0.71」「-0.28」といった値は、学習により推定された係数(モデルのパラメータ)です。

 図2に沿って数式の作成過程を説明しましょう。インプットは、過去の売り上げデータ10日分のそれぞれの「当日の売り上げ」と「前日からの売り上げ変化量」という2つのデータです。これを回帰分析というアルゴリズムで学習し、3つの係数を推定してモデルを得ます。ここまでが図2の上段になります。

図2●モデルの学習から適用までのイメージ
図2●モデルの学習から適用までのイメージ
[画像のクリックで拡大表示]

 次に翌日の売り上げを予測するために、当日の売り上げと前日からの売り上げ変化量のデータをインプットして予測させ、アウトプットとして翌日の売り上げの予測を得るのが下段のフローになります。当日の売り上げが300万円で、前日から売り上げが10万円減っていた場合、上記の式に当てはめると翌日の売り上げ予測値は295万9400円となります。