全2529文字
PR

 楽天グループは2022年4月19日、ユーザーの属性情報や行動情報などを分析するデータベース(DB)である「楽天スーパーDB」の稼働環境に、米Google(グーグル)のクラウドサービス「BigQuery」を採用したと発表した。これまでオンプレミス環境のデータウエアハウス(DWH)で管理していた数ペタバイト級のデータを、クラウド上のDWHサービスであるBigQueryに移行する。

 楽天スーパーDBとは、同社が世界中で展開する70以上のサービスを使うユーザーの情報を分析する巨大なDBだ。グループ共通IDである「楽天ID」のアカウント数は、日本国内で1億を超える。蓄積した情報は、サービスのパーソナライズ機能やレコメンデーション機能、行動ターゲティング広告機能などに使用している。

 日経クロステックの取材に応じた楽天グループのロヒット・デワン執行役員Cloud Platform Supervisory Departmentディレクターは「楽天グループ内では1000人を超える社員が楽天スーパーDBを使ってデータ分析業務に従事している」と説明する。移行プロジェクトは既に2021年2月に開始しており、2022年第4四半期までに完了する計画だ。

 楽天スーパーDBは構築当初、DWH製品であるTeradataを採用していた。その後、データ量の急増や機械学習といった新しい用途に対応するため、2008~2009年ごろからオープンソースソフトウエア(OSS)の分散データ処理ソフトウエアであるApache Hadoopを併用し始めた。楽天グループは日本における最初期のHadoopユーザーの1社だった。

オンプレミスとクラウドのハイブリッド

 今後は楽天スーパーDBのメインの稼働環境をBigQueryに据える。新しいデータ分析基盤をデワン氏は「楽天スーパーDB 2.0」と呼ぶ。ただし全てをパブリッククラウドのBigQueryで運用するのではなく、クラウドとオンプレミス環境のハイブリッドアーキテクチャーを採用する。

 つまり一部のデータ分析にはオンプレミス環境にあるTeradataを使用し続ける。セキュリティーポリシー上の理由などによって、パブリッククラウドには移行できないデータがあるためだ。

 またデータの発生源である業務システムは今後もオンプレミス環境にあるので、業務システムで発生したデータを楽天スーパーDBに移す際のETL(抽出・変換・書き出し)処理には、オンプレミス環境にあるHadoopやSparkを使用する。オンプレミス環境でETL処理を済ませたほうが、クラウドへのデータ転送量を抑えられるためだ。

楽天スーパーDB 2.0の構成
楽天スーパーDB 2.0の構成
[画像のクリックで拡大表示]

 デワン氏はBigQueryを採用した理由について「機械学習など新しいワークロードが増えるにつれ、楽天スーパーDBにさらなる拡張性が求められるようになったためだ」と説明する。楽天グループは2017年ごろから楽天スーパーDBの新しいアーキテクチャーについて検討を始め、複数のサービスや製品などを試したうえで、BigQueryを選択した。

 「オンプレミス環境でデータ分析をする場合、『このデータ分析のジョブは夜にやるか、それとも昼にやるか』など、データサイエンティストがデータ分析基盤のキャパシティーについて考慮する必要があった。それに対して拡張性の高いBigQueryであれば、データサイエンティストは自由にデータ分析ができるようになる」。BigQueryを選んだ理由をデワン氏はこう話す。

 実はBigQueryを採用したのにはもう1つ理由がある。可用性の高さだ。楽天スーパーDBは同社のビジネスを支える「ミッションクリティカルな存在」(デワン氏)。しかし従来の楽天スーパーDBのアーキテクチャーには、可用性の面での限界があったという。