全1786文字

 AI活用のカギとも言えるアルゴリズムですが、特に近年は多くのアルゴリズムが提唱され、もはや網羅的に整理することは不可能に近くなっています。多くのアルゴリズムを一気に理解しようとするのは現実的ではありません。そこでまず、構造化データを扱うアルゴリズムに絞って説明していきます。

 構造化データとは、分析したい単位を1行に、かつ行に対する情報を列にまとめ、Excelのシートなどで整理されたデータを指します(図1)。

図1●構造化データと非構造化データの違い
図1●構造化データと非構造化データの違い
[画像のクリックで拡大表示]

 AIを利用する際に用いられるデータは、通常1テーブル(Excelの1シートのイメージ)にまとめられ、1データ1行となります。「どういった顧客が商品を買ってくれそうか」というデータを、AIに適用する場合、1行につき1顧客の情報を示すデータを用意します。「どういった国が先進国となるのか」を学習する場合には、1カ国が1行になるデータを用意することになります。

 列には、行に対する情報を並べます。顧客の情報であれば年齢や性別、訪問回数といったデータです。これらの列のデータは、「顧客が商品を買ってくれた」というAIの学習のターゲットなる情報です。

 「どういった顧客が商品を買ってくれそうか」という構造化データの場合、商品を「購買した」「購買しなかった」という結果を示すデータ(変数)があります。こうした変数を「目的変数」と呼びます。目的変数に対して、年齢や性別、訪問回数など、目的変数に影響を与える可能性のある列データ(変数)を「説明変数」と呼びます(図2)。

図2●典型的な構造化データのイメージ
図2●典型的な構造化データのイメージ
[画像のクリックで拡大表示]