全5053文字
PR

Google BigQueryは米グーグルが提供するデータウエアハウスサービスである。データ分析基盤としての機能に加え、地理空間分析などの付加機能を備える。Google Cloudだけでなく他のクラウドのデータにアクセスするサービスも用意する。

 企業がDX(デジタルトランスフォーメーション)に取り組むようになった理由の1つに、ビッグデータ分析が身近になったことが挙げられます。大規模なデータを処理する場合、これまでは「Apache Hadoop」や「Apache Spark」などの分散処理基盤を構築するか、高価な商用製品を導入するなどしてデータを加工する必要がありました。複数のサーバーを用意し、処理効率やメモリー管理を意識した高度な構築・運用技術も必要でした。そのため、AI(人工知能)や機械学習にまで結び付けたデータ分析基盤の構築は先進的な一部の企業に限られると考えられていました。

 それがいまや、米アマゾン・ウェブ・サービス(AWS)の「Amazon Redshift」、米グーグルの「Google BigQuery」、米マイクロソフトの「Azure Synapse Analytics」といったデータウエアハウスのマネージドサービスが提供されています。単独のデータウエアハウスとしては米スノーフレークの「Snowflake」も知られています。これらの登場により高度なデータ分析基盤を誰もが構築できるようになりました。

 DXを進めるに当たり、どの技術を用いてデータ分析基盤を構築すべきか、判断を迫られている方も多いのではないでしょうか。今回はGoogle BigQueryについて解説します。

 BigQueryはグーグルが自社開発したビッグデータを扱う技術「Dremel」を基にしており、Google Cloud上のフルマネージドサービスとして提供されています。BigQueryは現在最も普及しているデータウエアハウスのサービスであり、ペタバイト規模のデータ分析をこなします。標準的なSQL言語をサポートしており、料金は使用するクエリー処理とストレージ容量に対してのみに発生します。

分析基盤にプラスアルファの機能

 BigQueryは一般的な分析基盤が備える機能に加えて、プラスアルファの機能を提供しています。

 1つは「AI・機械学習」です。「BigQuery ML」を使用してGoogle Cloudの「AI Platform」にデータを連係させることで、機械学習モデルをトレーニングしたり、その精度を評価したり、さまざまな予測をしたりといったことが可能になります。BigQuery MLを使うと、構造化データや半構造化データを世界規模で集めて機械学習モデルを構築し、運用できます。世界規模というのは、複数リージョンでデータを同期させ、どこからでもネットワークの遅延を気にせず利用できるという意味です。BigQuery内部に直接格納されるこれらのデータは標準的なSQLで扱えます。

 2つ目は「地理空間分析」です。ビッグデータ分析の世界では地理空間データを扱う機会が増えています。地理空間データは膨大になるため、多くの企業がデータウエアハウスで分析処理しています。「BigQuery GIS」は地理空間分析用の機能です。一般的な地理空間データ形式の任意の点、線分、ポリゴン、マルチポリゴンをサポートしています。このような地理データ型と標準のSQL地理関数を使用して、地理空間データを分析・可視化できます。

 3つ目は「リアルタイム分析」です。「BigQuery BI Engine」はBigQueryに組み込まれたインメモリー分析サービスです。大量で複雑なデータセットを分析できます。クエリーのレスポンス時間は1秒未満であり、同時実行性にも優れています。BI Engine SQLインターフェース機能によってグーグルの「Looker」、米タブローソフトウエアの「Tableau」、マイクロソフトの「Power BI」など一般的なビジネスインテリジェンス(BI)ツールと統合して利用できます。なお、BI EngineSQLインターフェース機能は2021年7月現在プレビュー中です。