全2460文字
PR

 前回、乳がんの検診データをPythonで読み込みました。今回は、そのデータの「確認」と「前処理」をしていきましょう。

データ確認

 「データ読み込み」が終わったら次のステップは「データ確認」です。その第一歩として入力データ(df)と正解データ(y)の一部を表示してみます。

 以下のコードは入力データの一部を表示するための実装とその結果です。

入力データの表示
[画像のクリックで拡大表示]
入力データの表示

 データフレームの内容表示はprint関数でも可能ですが、前述のdisplay関数を使ってきれいに表示させています。df[20:25]とは、入力データのうち20~24行目の5行分を抽出することを意味しています。

 機械学習を行う際、学習データは上のコードの出力結果のように表形式のデータとして扱われます注1。青枠で囲んだ1行分のデータが、一つの予測結果を出すための入力データです。表形式のデータのうち、左端の20から24までの数字がインデックス(index)と呼ばれている、特定の行に対する索引です。

注1 ここで紹介したコードでは9項目しか表示されていませんが、実際の画面は横にスクロール可能で、画面に出ていない分を含めて30個の入力データ項目があります。

 次に正解データがすべて含まれている変数yも、同様に20~24個目を表示してみましょう。そのための実装が以下のコードになります。

正解データの表示
[画像のクリックで拡大表示]
正解データの表示

 インデックスは、最初のコードと同じ[20:25]にそろえています。このため、最初に出てきたコードの5行分の入力データそれぞれの正解データが上のコードの出力という関係になっています。この関係を以下に示しました。

入力データ(df)と正解データ(y)の関係
[画像のクリックで拡大表示]
入力データ(df)と正解データ(y)の関係