全5878文字
PR

 DX(デジタルトランスフォーメーション)が加速度的に普及している理由の1つに、ビッグデータ分析が身近になっていることが挙げられます。従来、大規模なデータを処理する場合、「Apache Hadoop」や「Apache Spark」などの分散処理基盤を構築するか、高価な商用製品を導入するかしてデータを加工する必要がありました。複数のサーバーを用意し、処理効率やメモリー管理を意識した高度な構築、運用技術も必要でした。そのため、AI(人工知能)や機械学習まで結び付けたデータ分析基盤の構築は先進的な一部の企業に限られているものと考えられていました。

 それが今や、米Amazon Web Services(アマゾン・ウェブ・サービス、AWS)の「Amazon Redshift」、米Google(グーグル)の「Google BigQuery」、米Microsoft(マイクロソフト)の「Azure Synapse Analytics」といったデータウエアハウスのマネージドサービスが提供されています。単独のデータウエアハウスとしては米Snowflake(スノーフレーク)の「Snowflake」も有名です。これらの登場により高度なデータ分析基盤を誰もが構築できるようになりました。

 DXを進めるに当たり、どの技術を用いてデータ分析基盤を構築すべきか、その判断を迫られている方も多いのではないでしょうか。今回はBigQueryについて解説します。後半では、この分野で普及が進むRedshiftとの比較を通してBigQueryの特徴を説明します。

 BigQueryはグーグルが自社で開発したビッグデータを扱う技術「Dremel」を基にしています。グーグル社内におけるさまざまな課題を実験台として、それらを解決した上で、Google Cloud上のフルマネージドサービスとして提供されています。BigQueryは現在最も普及しているデータウエアハウスのサービスであり、ペタバイト規模のデータ分析ウエアハウスです。標準的なSQL言語をサポートしており、料金は使用するクエリー処理とストレージ容量に対してのみに発生するのが特徴です。

BigQueryの主な付加機能

 BigQueryは一般的な分析基盤が備える機能に加えて、プラスアルファの機能を提供しています。

 1つは「AI・機械学習」です。「BigQuery ML」を使用してGoogle Cloudの「AI Platform」にデータを連係させることで、機械学習モデルをトレーニングしたり、その精度を評価したり、さまざまな予測をしたりといったことが可能になります。BigQuery MLを利用すると、世界規模で構造化データや半構造化データを集めて機械学習モデルを構築し、運用できます。世界規模というのは、複数リージョンでデータを同期させることができ、どこからでもネットワークの遅延を気にせず利用できるという意味です。BigQuery内部に直接格納されるこれらのデータは、使い慣れた標準的なSQLを使って扱えます。

 2つ目は「地理空間分析」です。ビッグデータ分析の世界では地理空間データを扱う機会が増えています。地理空間データは膨大になるため、多くの企業がデータウエアハウスで分析処理しています。「BigQuery GIS」は地理空間分析用の機能です。一般的な地理空間データ形式の任意の点、線分、ポリゴン、マルチポリゴンをサポートしています。このような地理データ型と標準のSQL地理関数を使用して、地理空間データを分析、可視化できます。

 3つ目は「リアルタイム分析」です。「BigQuery BI Engine」はBigQueryに組み込まれたインメモリー分析サービスです。大量で複雑なデータセットをインタラクティブに分析できます。クエリーのレスポンス時間は1秒未満であり、同時実行性にも優れています。BI Engine SQLインターフェース機能によって「Looker」、米Tableau Software(タブローソフトウエア)の「Tableau」、マイクロソフトの「Power BI」など一般的なビジネスインテリジェンス(BI)ツールと統合して利用できます。なお、BI Engine SQLインターフェース機能は2021年7月現在プレビュー中です。