全4970文字

 データ分析に取り組み始めると、「似たようなデータの集計や分析を自動化して作業を効率化したい」「クラスター分析や時系列分析など難しい分析を行う方法が知りたい」といった要望が出てくることもあるでしょう。そんな時に便利なのが「R」というプログラミング言語です。

 データ分析に興味を持っている人なら、R言語について聞いたことがあるかもしれません。Rは統計解析に特化したオープンソースのプログラミング言語です。統計解析に注力しているため、データ分析やデータ可視化のオプションが豊富なのが特徴です。

 Rでは「平均値や中央値を求める」といったデータ分析の基本的な計算はもちろん、「クラスター分析」や「時系列分析」などExcelでは難しい複雑なモデルも扱えます。また、Rはグラフを描くための関数を数多く備えています。プログラミングにおける関数とは、ある決まった処理をまとめて実行する命令のようなイメージです。関数を使うことで、ヒストグラムや折れ線グラフなどさまざまな種類のグラフを描けます。

 「そうは言っても、そんなに複雑なことはしないし、データ分析はExcelで間に合っているよ」「新しくプログラミング言語を身につけるのも大変だし」という人もいるでしょう。しかし、R言語にはそれを上回るメリットがあります。代表的な利点を3つにまとめました。

1. 一度書いたプログラムは何度でも再利用できる

 一方、Excelで新しいデータを使ってグラフを作成する場合、毎回手を動かさなければなりません。Excelにもグラフのテンプレート作成など、ある程度は手順を省く機能があります。しかし、Rのようなプログラミング言語の方が、より柔軟に簡単な操作で「同じような作業の自動化」を実現できます。

2. グラフのフォーマットを細かく指定可能。きれいに描画できる

 Rは統計解析に特化した言語のため、グラフの描画機能に多くのオプションが用意されています。

 縦軸・横軸の設定、描画サイズの調整、グラフの重ね合わせ、色の調整など自由自在です。例えばExcelで図1のように散布図と折れ線グラフ、棒グラフを組み合わせた表現をするのは困難ですが、Rなら実現できます。

図1●プログラミング言語「R」を使って作成した図。散布図と折れ線グラフ、棒グラフを組み合わせている
図1●プログラミング言語「R」を使って作成した図。散布図と折れ線グラフ、棒グラフを組み合わせている
[画像のクリックで拡大表示]

3. 無料の開発環境「RStudio」が使いやすい

 RStudioはRを使った開発を支援するソフトウエアです。プログラムの記述・保存、プログラム実行結果の確認、作成した図の確認などができます。とても使いやすいので、筆者としては「RStudioで開発できる」という点だけでもR言語を採用する価値はあると思っています。

 RStudioは4種類の画面で構成されており、初心者でも分かりやすくデータ分析が可能です(図2)。左上から反時計回りに見ていきましょう。

図2●RStudioは4種類の画面で構成されている
図2●RStudioは4種類の画面で構成されている
[画像のクリックで拡大表示]

〔左上〕プログラムを記述するメモ帳のような画面
タブを分けて、ブラウザーのように行き来しながらプログラムを書くことができます。

〔左下〕書いたプログラムを実行するコンソール画面
実行したプログラムの計算結果などが表示されます。

〔右下〕描いたグラフやパソコンに保存してあるファイルなどを表示する画面
矢印をクリックするだけで、前後に描画したグラフを確認可能です。また、パソコンのフォルダーから直接データを読み込んだり、ヘルプ画面を参照したりできます。

〔右上〕読み込んだデータの一覧や実行したコード履歴が確認できる画面
どの変数にどのような値が入っているのかが一目瞭然です。