4. 欠損値の有無とデータ型の確認
最後に、欠損値の有無やデータ型について調べましょう。欠損値について確かめるのは、以前の記事で紹介したデータの前処理をする際にも必要となります。
「df.info()」関数を使うと、「Null(欠損値)」ではない有効なデータの数、それぞれの列のデータが文字列なのか数値なのか(データ型)が出力されます。
今回のデータでは、関数の実行結果(ソースコードの下の白い部分)の2行目に「RangeIndex: 29 entries」とあるため、行数は29行だと分かります。しかし、実行結果の10行目にある「conflict」変数を見ると、欠損値ではないデータ(non-null)は24個しかありません。つまり5つの行で欠損値が発生しています。なお、一番下の方にある「int64」は整数型、「float64」は小数点型、「object」は質的データなどを含むオブジェクト型のデータであることを表しています。
ここまでpandasライブラリーの概要を紹介してきました。Pythonには他にも、行列やベクトルの数値計算を行う「numpy」、ヒストグラムや箱ひげ図などグラフを描画できる「matplotlib」、手軽に機械学習ができる「scikit-learn」などデータ分析に役立つさまざまなライブラリーがあります。目的に応じて使い分けていきましょう。
なお、初めてPythonを使う場合は今回利用したJupyter Notebookか、もしくは「Google Colaboratory」がお薦めです。
Jupyter Notebookを使うなら、「Anaconda」という無料のツールを導入するのが簡単です。Anacondaをインストールすると、データサイエンスに必要なライブラリーやJupyter Notebookもまとめて一緒にインストールされます。
一方、Google ColaboratoryはWebブラウザー上で実行できるPythonの実行環境です。Googleアカウントさえ持っていれば、特にソフトウエアをインストールしなくてもすぐにPythonを使えます。無料でGPUを利用できるので、ディープラーニングなど大量のデータを扱う処理の高速化も可能です。
Anaconda、Google Colaboratoryについては公式サイトに豊富な情報があります。少しでもPythonに興味を持った方は、この機会にぜひ試してみてください。
資格試験問題にチャレンジ
今回の内容の理解度を、「データ分析実務スキル検定」の問題でチェックしてみましょう。