前回、乳がんの検診データをPythonで読み込みました。今回は、そのデータの「確認」と「前処理」をしていきましょう。
データ確認
「データ読み込み」が終わったら次のステップは「データ確認」です。その第一歩として入力データ(df)と正解データ(y)の一部を表示してみます。
以下のコードは入力データの一部を表示するための実装とその結果です。
データフレームの内容表示はprint関数でも可能ですが、前述のdisplay関数を使ってきれいに表示させています。df[20:25]とは、入力データのうち20~24行目の5行分を抽出することを意味しています。
機械学習を行う際、学習データは上のコードの出力結果のように表形式のデータとして扱われます注1。青枠で囲んだ1行分のデータが、一つの予測結果を出すための入力データです。表形式のデータのうち、左端の20から24までの数字がインデックス(index)と呼ばれている、特定の行に対する索引です。
次に正解データがすべて含まれている変数yも、同様に20~24個目を表示してみましょう。そのための実装が以下のコードになります。
インデックスは、最初のコードと同じ[20:25]にそろえています。このため、最初に出てきたコードの5行分の入力データそれぞれの正解データが上のコードの出力という関係になっています。この関係を以下に示しました。