全3552文字

 Python入門講座も6回目。これまで、Pythonプログラミングに必須の基礎知識を一通り押さえてきました。最終回となる今回は、Pythonを使ったデータ操作の方法を取り上げます。

 Pythonは、AI(人工知能)やデータ分析のためのプログラミング言語として注目されています。その第一歩として、データ操作用ライブラリー「Pandas」の使い方を学習していきましょう。

データ操作用ライブラリー「Pandas」

 Pandasは、データ操作のために広く使われているライブラリーです。データベースやCSVファイルなどの一般的なデータ形式で保存されたデータの読み込みや、条件を指定しての一部データの抽出など、機械学習で取り扱うデータを整理するのに便利です。

 Pandasの代表的な機能をまとめます。

  • CSVファイルの読み書き
  • 統計量の算出
  • 並べ替え
  • データの選択
  • 条件指定による選択
  • 欠損値の除去/補完
  • 数値計算用ライブラリー「NumPy」とデータ構造の相互変換が可能

Pandasのデータ型

 では、Pandasのデータ型について見ていきます。Pandasで扱う配列には、以下の3つの種類があります。

  1. Series型……一次元配列
  2. DataFrame型……二次元配列
  3. Panel型……三次元配列
Pandasのデータ型
Pandasのデータ型
[画像のクリックで拡大表示]

 このうち使用頻度が圧倒的に高いのが、②のDataFrame型です。縦×横の表形式でデータを保持します。ここでは、DataFrame型を中心に学習していきます。

DataFrame型のデータ構造
DataFrame型のデータ構造
[画像のクリックで拡大表示]