人工知能(AI)の開発に重要な役割を果たすのが「データ」だ。注目のプログラミング言語「Python」と開発環境「Visual Studio Code(VSCode)」を使ってデータの加工や分析を行う方法を解説する。
【ステップ1】データを確認する
ここからは、CSVファイルからグラフを作成する方法を解説します。ここで利用するCSVファイルには欠損値などが含まれており、そのままではPythonで読み込んでグラフ作成の処理をすることができません。図1のステップ1〜3の順番でデータを加工しましょう。
ステップ1はデータの確認です。CSVファイルの表形式のデータが崩れている場合(欠損値があるような場合)、Pythonで読み込む際にエラーになることがあります。ですので、事前にCSVファイルのデータ構造や中身を確認しておくことが大事です。
ステップ1の手順は次の通りです。まず、日本の人口統計データのCSVファイルをダウンロードします。そしてそのCSVファイルを開き、どのようなデータの構造になっているかを確認します。そのあとで、Pythonでエラーなく読み込めるかを確認します。
オープンデータを利用する
日本の人口統計データのCSVファイルは、「オープンデータ」をダウンロードして利用します。
オープンデータとは、営利・非営利目的を問わず2次利用が可能で、かつ無償で利用できる、公開されているデータのことです*3。
ここではデジタル庁が整備、運営する「データカタログサイト」からデータをダウンロードします。サイトには、以下のURLからアクセスできます。
データカタログサイトで、厚生労働省の「人口動態調査_人口動態統計_確定数_総覧_年次_2020年」というデータセットを検索し、「上巻_3-3-1_都道府県(特別区-指定都市再掲)別にみた人口動態総覧」というCSVファイルをダウンロードします*4。日本の各都道府県の人口についてのデータです。
ダウンロードした「ma030000.csv」というファイルは、作業用のフォルダーを作ってそこに格納します。ここでは、デスクトップに「VSCode_data」というフォルダーを作り、ダウンロードしたファイルを入れておきます。
では、このCSVファイルをVSCodeで開いて確認してみましょう。画面左側の「エクスプローラー」アイコンを選び、「フォルダーを開く」から先ほど作成した「VSCode_data」フォルダーを開きます。
VSCodeでフォルダーを開くと、そのフォルダー内に悪意のあるファイルが存在していないか確認のダイアログが表示される場合があります。ここでは、「はい、作成者を信頼します。フォルダーを信頼してすべての機能を有効にする」をクリックします。
フォルダーを開いたら、「ma030000.csv」をクリックしてみましょう。CSVファイルの中身が、VSCode上に、テキスト形式で表示されました(図8)。テキストを直接編集することもできます。しかし、とても見にくいデータです。
データをよく見ると、5行目まではデータに対する説明の文章のようです。そのあとはカンマ区切りの表のようです。これではどのような表なのかがわかりづらいですね。このようなデータを、編集しやすくしてくれる拡張機能があります。