全4039文字
PR

1.ライブラリーのインポート

 Pythonをインストールできたら、まず必要なライブラリーをインポートしましょう。インポートとは、ライブラリーを呼び出して使える状態にすることです。

図 必要なライブラリーをインポート
図 必要なライブラリーをインポート
Pythonでpandasライブラリーとosライブラリーをインポートしているところ
[画像のクリックで拡大表示]

 「In〔1〕」は、ユーザーが記述したプログラムを表示する欄です。上から2行目では、「pandas」ライブラリーを「pd」という名前を付けてインポートしています。3行目では「os」というまた別のライブラリーをインポートしました。こちらはOS依存の機能をPythonで書いたプログラムから利用するためのライブラリーです。

 4行目ではPythonを実行している作業ディレクトリー(現在のディレクトリー)を確認するため、「os.getcwd()」関数を実行しています。関数を実行する際には、ライブラリーの名前(ここでは「os」)を頭に付けるのがPythonのルールです。ここまでのプログラムを実行した結果として、「Out〔1〕」に作業ディレクトリー(フォルダー)のパスが表示されているのが分かります。

2.データの読み込みと中身の確認

 次にCSVファイルをPythonで読み込んで、中身のデータを確認していきます。分析するのは前回の記事でも使ったコンビニエンスストアの売り上げと関連情報をまとめたデータ「sales_data.csv」です。

図 分析に利用するデータ
図 分析に利用するデータ
コンビニエンスストアの売り上げ、敷地面積、開店時からの経過年数、近くの競合店舗数、駐車場の有無、店舗の種類など
[画像のクリックで拡大表示]

 ファイルを読み込む際は、まずファイル名とそのファイルが入っているフォルダー名を指定して変数に代入します。下の図の「In〔2〕」の2行目を見てください。ここでは、「MyPython」フォルダー内の「sales_data.csv」ファイルを変数「frame」に代入しています。

図 作業結果を確認
図 作業結果を確認
PythonでCSVファイルを読み込んでデータフレーム型に変換し、「print()」関数で内容を確認
[画像のクリックで拡大表示]

 続く3行目では、「pd.read_csv()」関数で先ほどの「frame」に代入したファイルを読み込んでいます。「encoding」は読み込み時の文字コードを指します。「low_memory = False」は容量が大きいファイルを読み込む際、メモリーを効率的に使うためのオプションです。実行結果は「mydata」という変数に代入します。

 4行目では、「pd.DataFrame()」関数を使って、読み込んだファイル(変数は「mydata」)のデータを扱いやすいよう、データフレーム型に変換します。データフレーム型は表の列の名称、行の名称と値をセットで保存するデータ構造の一種です。変換した結果は「df」という変数に代入します。

 ここまでの作業でファイルの読み込み、データの変換が済んだら、中身を確認してみましょう。

 7行目の「print()」関数は、文字列を画面に表示します。「head()」は先頭から任意の行数のデータを出力するための関数です。ここでは「print(df.head(1))」と記述することで、データの先頭の行の値を表示しています。関数の実行結果の表示欄(ソースコードの下の白い部分)の最初の2行が上記の関数の実行結果です。例えば「sales」の1行目の値は「192088888」、「area」は「48」だと分かります。

 10行目の「shape()」はデータの行数と列数を出力する関数です。実行結果の3行目の結果を見ると、今回のデータは「29行」「7列」あることが分かります。13行目の「columns()」は列名を出力する関数です。実行した結果、実行結果の4行目に列名の一覧が表示されています。