全5020文字

4. 欠損値の有無とデータ型の確認

 最後に、欠損値の有無やデータ型について調べましょう。欠損値について確かめるのは、以前の記事で紹介したデータの前処理をする際にも必要となります。

 「df.info()」関数を使うと、「Null(欠損値)」ではない有効なデータの数、それぞれの列のデータが文字列なのか数値なのか(データ型)が出力されます。

「df.info()」関数で欠損値の有無やデータ型などを表示できる
「df.info()」関数で欠損値の有無やデータ型などを表示できる
[画像のクリックで拡大表示]

 今回のデータでは、関数の実行結果(ソースコードの下の白い部分)の2行目に「RangeIndex: 29 entries」とあるため、行数は29行だと分かります。しかし、実行結果の10行目にある「conflict」変数を見ると、欠損値ではないデータ(non-null)は24個しかありません。つまり5つの行で欠損値が発生しています。なお、一番下の方にある「int64」は整数型、「float64」は小数点型、「object」は質的データなどを含むオブジェクト型のデータであることを表しています。

 ここまでpandasライブラリーの概要を紹介してきました。Pythonには他にも、行列やベクトルの数値計算を行う「numpy」、ヒストグラムや箱ひげ図などグラフを描画できる「matplotlib」、手軽に機械学習ができる「scikit-learn」などデータ分析に役立つさまざまなライブラリーがあります。目的に応じて使い分けていきましょう。

 なお、初めてPythonを使う場合は今回利用したJupyter Notebookか、もしくは「Google Colaboratory」がお薦めです。

 Jupyter Notebookを使うなら、「Anaconda」という無料のツールを導入するのが簡単です。Anacondaをインストールすると、データサイエンスに必要なライブラリーやJupyter Notebookもまとめて一緒にインストールされます。

 一方、Google ColaboratoryはWebブラウザー上で実行できるPythonの実行環境です。Googleアカウントさえ持っていれば、特にソフトウエアをインストールしなくてもすぐにPythonを使えます。無料でGPUを利用できるので、ディープラーニングなど大量のデータを扱う処理の高速化も可能です。

 Anaconda、Google Colaboratoryについては公式サイトに豊富な情報があります。少しでもPythonに興味を持った方は、この機会にぜひ試してみてください。

資格試験問題にチャレンジ

 今回の内容の理解度を、「データ分析実務スキル検定」の問題でチェックしてみましょう。

サンプル問題

 Pythonプログラムをノートブック形式で以下のように作成した。各セルに含まれる処理として、適切なものはどれか。すべて選べ。

[画像のクリックで拡大表示]
  • A) セルAには、カレント・ディレクトリーの確認をする処理が含まれる
  • B) セルBには、読み込んだデータの行数・列数・列名・最初の一行目を確認する処理が含まれる
  • C) セルCには、読み込んだデータの要約統計量を確認する処理が含まれる
  • D) セルDには、読み込んだデータに欠損値があるかどうかを確認する処理が含まれる