全4250文字
PR

人工知能(AI)の開発に重要な役割を果たすのが「データ」だ。注目のプログラミング言語「Python」と開発環境「Visual Studio Code(VSCode)」を使ってデータの加工や分析を行う方法を解説する。

 「Visual Studio Code」(以下、VSCode)は、Microsoftが開発している高機能なコードエディターです。あらゆるプログラミング言語に対応しており、無償で利用できます。

 コードの自動補完など、充実した標準機能が用意されています。さらに、「拡張機能」と呼ばれる追加機能で、自分の環境に合わせてカスタマイズできます。

 本稿では、VSCodeとその拡張機能を活用し、データ分析に欠かせない「データ加工」を効率化するテクニックを紹介します。プログラミング言語はPythonを使います。ここでは、「日本の人口統計データ」のCSVファイルを読み込み、「都道府県別の出生数」のグラフを作成することが最終的な目標です。データ加工の手順を大きく3つのステップに分けて順番に解説します(図1)。

図1●Pythonを使ってCSVファイルを読み込み、グラフを表示するまでの手順
図1●Pythonを使ってCSVファイルを読み込み、グラフを表示するまでの手順
[画像のクリックで拡大表示]

 図1のグラフの作成は、すぐに実現できそうに見えますが、簡単ではありません。なぜなら、元のCSVファイルが欠損値や不要なデータを含んでいるからです。このようなデータがあると、データの読み込みや集計の際、エラーになってしまいます。

 そこで、まずステップ1でCSVファイルの中身をよく見て確認し、ステップ2で処理しやすいデータの形に整形します。そしてステップ3でグラフを描画する処理を行います。これらをすべてVSCode上で行います。Excelなどのソフトウエアは使いません。

 ビジネスの現場でも、欠損値などを含む「整っていないデータ」の分析が必要な場面があります。本稿で紹介するデータ加工のテクニックは、そのようなデータ分析の際に応用できるでしょう。