全4039文字
PR

「Python」は初心者でも学びやすく汎用性の高いプログラミング言語だ。データ分析や機械学習向けのライブラリーが数多く公開されているのが特徴である。Pythonにおけるデータ分析で欠かせないライブラリー「pandas」の使い方を解説する。

 データ分析に用いられるプログラミング言語は、よく知られている「R」以外にもいろいろあります。そのなかで、今回は初心者でも学びやすく汎用性の高いプログラミング言語「Python」を使ったデータ分析の概要を見ていきましょう。Pythonの特徴は、大きく3つ挙げられます。

  • 少ないコードで簡単にプログラムが書ける
  • 文法がシンプルで誰が書いても同じようなプログラムになる
  • Webサービスの開発や機械学習、ビッグデータ解析などさまざまな分野で使用されている

 Pythonは近年、機械学習でよく使われるプログラミング言語として話題です。しかし、実際には機械学習だけでなく、Webサービスやアプリケーションなどさまざまな開発用途に汎用的に利用されています。例えばYouTubeやInstagram、Dropbox、Evernoteといった有名なWebサービスもPythonを採用しています。

 RとPythonとでは、何が違うのでしょうか。Rは統計解析に特化したプログラミング言語で、仮説検定や時系列分析といった統計的分析手法や、グラフの描画などが得意です。一方、Pythonの強みはデータ分析以外の幅広い用途でも使える汎用性です。そのため、Pythonはアプリケーションやシステムに組み込んでデータの処理をするのに向いています。利用者の好みや、用途に合った方を使いましょう。

機械学習向けライブラリーが充実

 Pythonでは、データ分析や機械学習向けのライブラリーが数多く公開されています。ライブラリーとは、「ある決まった処理を実行するのに便利な関数の集合」と考えてください。ライブラリーをうまく活用することで、データ分析や機械学習をより簡単にできます。

 その中でも、Pythonにおけるデータ分析に必須のライブラリーが「pandas」です。pandasはExcelファイル、CSVファイルなどから読み込んだテーブル型のデータを扱うライブラリーです。データの読み込みやテーブルの結合、欠損値の確認などができます。

 実際にデータ分析を行う流れに沿って、Pythonでのpandasの使い方を見ていきましょう。「コンビニエンスストアの売り上げに影響を与えている要因」のデータを想定してください。売り上げ、敷地面積、開店時からの経過年数、近くの競合店舗数、駐車場の有無、店舗の種類などをまとめたCSVファイルをPythonのpandasライブラリーを使って分析していきます。

 Pythonにはさまざまな開発・実行環境がありますが、ここでは「Jupyter Notebook」を使っています。Jupyter NotebookではPythonのプログラムを記述し、その実行結果を確認しながらデータの分析作業を進められます。以降に出てくるプログラムの実行画面はいずれもJupyter Notebookです。