全3552文字
Python入門講座も6回目。これまで、Pythonプログラミングに必須の基礎知識を一通り押さえてきました。最終回となる今回は、Pythonを使ったデータ操作の方法を取り上げます。
Pythonは、AI(人工知能)やデータ分析のためのプログラミング言語として注目されています。その第一歩として、データ操作用ライブラリー「Pandas」の使い方を学習していきましょう。
データ操作用ライブラリー「Pandas」
Pandasは、データ操作のために広く使われているライブラリーです。データベースやCSVファイルなどの一般的なデータ形式で保存されたデータの読み込みや、条件を指定しての一部データの抽出など、機械学習で取り扱うデータを整理するのに便利です。
Pandasの代表的な機能をまとめます。
- CSVファイルの読み書き
- 統計量の算出
- 並べ替え
- データの選択
- 条件指定による選択
- 欠損値の除去/補完
- 数値計算用ライブラリー「NumPy」とデータ構造の相互変換が可能
Pandasのデータ型
では、Pandasのデータ型について見ていきます。Pandasで扱う配列には、以下の3つの種類があります。
- Series型……一次元配列
- DataFrame型……二次元配列
- Panel型……三次元配列
このうち使用頻度が圧倒的に高いのが、②のDataFrame型です。縦×横の表形式でデータを保持します。ここでは、DataFrame型を中心に学習していきます。