全3838文字

 今回から、オープンソースのデータ分析ソフト「KNIME(ナイム)」を使いながら、データ分析の手順を具体的に解説します。本講座の画面を追うだけでもイメージがつかめるはずですが、実際に操作しながら読み進めればより理解が進みます。KNIMEは無料で利用できますから、じっくり試したい方はぜひダウンロードしてみてください(ダウンロード方法は後述)。

 KNIMEは、ドイツのコンスタンツ大学で作られたデータ分析用ソフトです。グラフィカルな部品をマウス操作で組み合わせることで、データ分析の一連の流れを実行できます。現時点で日本語版はないためメニューなどの表記は英語版ですが、日本語のデータは問題なく扱えます。

 本講座の第1回で解説した「CRISP-DM」に沿って、KNIMEをどう使うか見ていきましょう。

1.ビジネスの理解
 このプロセスではKNIMEは使いません。担当者が集まってビジネスの情報や業務知識を整理し、問題点を明確にします。また、分析目標を設定してスケジュールを検討します。

2.データの理解
 データの平均値や分散値といった統計量を算出したり、棒グラフやヒストグラム、箱ひげ図といったグラフ機能によってデータを可視化して、特徴を確認できます。

3.データの準備
 データベースやテキストファイルなど、散在するデータを読み込んで結合できます。さらに分析に必要な行・列の選択や、新たな変数の作成ができます。
 データに欠けている値(欠損値)があった場合、該当するレコードの削除はもちろん、補完も可能です。具体的には、平均値や定数によって補完できます。
 これ以外にも、KNIMEにはデータ準備のための機能が豊富にあります。

4. モデリング
 分析に適したモデリング手法を選び、3.で用意したデータを使って予測や判別、分類などを実行します。
 KNIMEでは、様々なモデリング手法を選べます。ニューラルネットワークや決定木といった機械学習の手法だけでなく、マーケティングでよく使われるロジスティック回帰、クラスター分析・アソシエーションモデルなどがあります。近ごろ人気の、アンサンブル学習も選べます。

5. 評価
 作成したモデルを使用して、予測値の精度を確認します。例えば数値の予測なら、どれだけの誤差が発生したかをチェックします。正常/不良の判別ならば、正解と実際の判別結果のマトリックス(「混同行列」と呼ばれる)を表示し、精度を確認します。

6. 展開/共有
 KNIMEで作成したモデルは、広く展開できます。作成したモデルを基にKNIMEで予測システムを構築したり、モデルを他のソフトウエアに移行したりすることが可能です。