全2460文字
PR

 このことを散布図表示で実際に確かめてみましょう。以下のコードが、散布図を表示するための実装です。

散布図表示
[画像のクリックで拡大表示]
散布図表示

 このコードの細かい部分は読み飛ばしてもらってかまいせん。関数呼び出し1行ごとに細かいコメントをつけているので、どの関数でどういう処理をしているのかだけ、なんとなく押さえるようにしてください。

 先ほど分割した二つのデータdf0、df1ごとにscatter関数を呼び出しています。その際、marker(散布図上のマーク)とc(色)をそれぞれ別の値にすることで、見やすく区別できるようにしました。

 今回の結果を見ると、散布図描画の準備コードの実行結果の観察を基に行った予想(半径_平均に関してはdf0〈悪性のグループ〉の方が大きい傾向にありそう)が正しいことが確認できます。

データ前処理

 次のステップは「データ前処理」です。実データを対象にモデルを作る場合、このステップに非常に手間がかかる場合もあります。

 しかし、今回の例題では、モデル化しやすいデータセットを選んでいるので、前処理なしにこのままモデルの入力にできます。

 本来の前処理とは異なるのですが、今回は入力項目数を二つに減らして前処理のステップを実施することにします。入力の項目数が多いと、モデルの動作イメージが持ちにくいためです。実装は以下のコードです。

入力データを2 項目だけに絞り込む
[画像のクリックで拡大表示]
入力データを2 項目だけに絞り込む

 実際に「半径_平均」と「きめ_平均」の2項目だけを持つデータフレームができました。この2変数が前述の散布図表示で散布図を表示した変数と同じものであることに注意してください。散布図表示のコード結果から、この2変数だけ使ってもある程度の分類はできそうなので、次回以降はこの形の入力データで学習を進めることにします。