PR

2. 楽天におけるビッグデータ

 楽天では様々な種類の大規模データを扱っているが,代表的な大規模データの例として,楽天市場の商品データ,および商品レビューデータが存在する.

図1●楽天市場での取り扱い商品数の推移
図1●楽天市場での取り扱い商品数の推移
[画像のクリックで拡大表示]

 図1に,2004年10月以降の楽天市場にて取り扱っている商品数の推移を示す(*).図1に示す通り,2004年10月の段階では,取り扱い商品数は約900万商品であったのに対し,2012年8月21日現在,取り扱い商品数は約1億700万商品と,爆発的に増加している.

* 最新の取扱い商品数は,http://www.rakuten.co.jp/にて公開されている.
図2●楽天市場に投稿されているレビュー総数の推移
図2●楽天市場に投稿されているレビュー総数の推移
[画像のクリックで拡大表示]

 同様の傾向は,楽天市場の商品レビューデータにも見られる.図2に,2003年8月以降の楽天市場の商品に対して投稿されているレビュー[3]総数の推移を示す(*).2003年8月よりスタートしたレビューサイトは,2012年現在,約8,680万のレビューが存在し,日々1万程度のレビューが投稿されている.

* 最新のレビュー登録数は,http://review.rakuten.co.jp/にて公開されている.

 図1, 図2に示した商品データ,商品レビューデータは楽天が取り扱っている大規模データの一部であり,これらのデータの他に,7,500万人を超える会員情報,8,000万を超える購買履歴データ,ユーザによる検索クエリログ,商品ページのクリックスルーログ,広告のクリックログ,クレジットカードの利用情報等の大規模データが存在する.

 多種多様なサービスから得られるユーザ属性情報,および様々なフォーマットの大規模データを横断的に収集・解析し,サービスに役立てていくことは大変重要である.そこで楽天では,現在,全サービスが共通して利用するユーザ属性情報の DBプラットフォーム(=楽天スーパーDB),および,多種多様な大規模ログを収集し解析するグローバルイベント解析プラットフォーム等の構築・運用を行うことで,これらの課題に立ち向かっている.楽天スーパーDBは,増加する楽天会員を一元的に管理するDBであり,会員に紐づく静的な情報を保持するDBプラットフォームである.対してグローバルイベント解析プラットフォームは,アプリケーションから発生する多種多様なログデータを収集する解析基盤で,動的な情報をリアルタイムに取り扱うプラットフォームである.以降では,これら2つのプラットフォームについて,具体的に述べていく.