全3034文字
今回から、乳がんの判定に関するモデルの構築を題材に、PythonでのAI開発の方法を見ていきましょう。医学の場合、最終的な病気の診断は、あくまで医者が行うものですが、このようなモデルがあれば医者は自分の診断の正しさを確認できます。このように人間の判断の補助としての位置付けも機械学習モデルとしての意味のある利用形態です。
例題データの説明
今回の実習で利用するデータセットは、「Breast Cancer Wisconsin(Diagnostic)Data Set」(乳がん診断データセット)と呼ばれるものです。
乳がんの検診で腫瘍が見つかった患者に対して腫瘍細胞を採取し、顕微鏡で分析した結果を数値化した情報となっています。
[画像のクリックで拡大表示]
細胞の顕微鏡写真の例
W.N. Street, W.H. Wolberg and O.L. Mangasarian, “Nuclear Feature Extraction for Breast Tumor Diagnosis,”IS&T/SPIE 1993 International Symposium on Electronic Imaging: Science and Technology, volume 1905, pages 861-870, San Jose, CA, 1993, http://citeseerx.ist.psu.edu/viewdoc/download?doi= 10.1.1.56.707&rep=rep1&type=pdf よりFigure2 を引用。
具体的には、以下のような10個の特徴量が、個々の細胞に対して数値化されます。今回の実習を試すのに、個々の特徴量の意味を詳しく理解する必要はありません。
- 半径(中心から周囲の点までの距離の平均)
- きめ(グレースケール値注1の標準偏差)
- 周長
- 面積
- 平滑度(半径の長さの局所変動)
- コンパクト度(境界^ 2/面積-1.0)
- 凹面(輪郭の凹面部分のきつさ)
- 凹点(輪郭の凹部分の数)
- 対称性
- フラクタル度(「海岸線近似」-1)
次に、それぞれの特徴量に対して統計処理が行われ、次の三つの数値が算出されます。
- 平均値
- 標準誤差
- 最大値
この結果、10×3=30個の数値が精密検査対象の患者に対して導出されます。この30項目(次元)のデータは、この患者の腫瘍が悪性(malignant)か良性(benign)かという医者の診断結果(正解データ)とともに、公開データセットの形で入手できます。公開データセットの中では悪性は0、良性は1で表されています。
注1 濃淡を示す階調値