全2970文字

「教師あり学習」「教師なし学習」…機械学習の種類を知っておこう

 機械学習にはさまざまな種類がありますので、ここでもう少し詳しく見ていきましょう。機械学習には教師あり学習のほかに「教師なし学習」があります(図4)。

図4●機械学習には「教師あり学習」のほか「教師なし学習」がある
図4●機械学習には「教師あり学習」のほか「教師なし学習」がある
[画像のクリックで拡大表示]

 教師あり学習は先ほど説明した特徴量(インプットのデータ)と目的変数(正解となる教師データ)のペアが必要なアルゴリズムです。さらに、教師あり学習は「回帰問題」と「分類問題」の2種類に分かれます。

 回帰問題では、目的変数が連続した数値になります。例えば「営業人数の変化が売り上げに影響する」ことが知られている場合に、「営業人数」のデータを基に「売り上げ」を求める問題などが該当します。

 分類問題では、「このユーザーは契約を継続する」「継続しない」といった2値の予測ができます。また、あるニュース記事が「経済」「政治」「芸能」「スポーツ」といった複数カテゴリーのどこに当てはまるかを予測するのも分類問題の一種です。

 教師あり学習にはこの連載の前回の記事で紹介した回帰分析のほか、段階的にデータを分割していくことでツリー状の分析結果を出力する「決定木」などのアルゴリズムがあります。

教師あり学習のアルゴリズム例
  • 回帰分析
  • 決定木
  • ランダムフォレスト
  • ニューラルネットワーク

 一方、教師なし学習は特徴量だけが必要なタイプのアルゴリズムです。類似データを自動的にグループ分けする「クラスター分析」(クラスタリング)や、高次元のデータを圧縮する「主成分分析」が代表的なアルゴリズムです。

教師なし学習のアルゴリズム例
  • k-means法
  • 階層型クラスタリング
  • 主成分分析

資格試験問題にチャレンジ

 今回の内容の理解度を、「データ分析実務スキル検定」の問題でチェックしてみましょう。

サンプル問題

 以下の問題のうち、回帰モデル(数値予測モデル)を適用すべきなのはどれか。すべて選べ。

  • A)購買行動の似た顧客をグループにするといくつになるか
  • B)曜日や天気、広告費などから考えられる来月の店舗売上はいくらか
  • C)最寄り駅や築年数、広さなどを考慮した適切な不動産賃料はいくらか