数千万~数億人が利用する巨大クラウドサービスの内側は、どうなっているのか――。米グーグルや米フェースブック、米セールスフォース・ドットコムなど大手クラウド事業者のアーキテクトが米国で開かれた学会で、自社のデータ処理基盤の詳細を明らかにした。学会を現地取材して分かった事実や独自取材を基に、各社のクラウド基盤技術を“解剖”する。
(中田 敦)

大手クラウド事業者は、データベース(DB)やクラスターソフト、ストレージといったクラウド基盤ソフトの自社開発に余念がない。しかしこれらは、社内利用するソフトであるため、詳細が外部に伝わることは少ない。
そんなクラウド事業者が自社の秘密を明かす舞台が「学会」だ。例えば、米国計算機学会(ACM)が2010年6月に米国で開催した「ACM Symposium on Cloud Computing(SOCC) 2010」には、グーグル、フェースブック、セールスフォース・ドットコムのアーキテクトが一堂に会し、基調講演でクラウドの内側を語った。グーグルは、クラスターソフトの基本的な設計方針を示し、フェースブックやセールスフォースは、リレーショナルデータベース(RDB)を独自のミドルウエアで拡張している実態を明らかにした。
SOCC 2010の基調講演や、その後の独自取材で分かった内容を基に、最新クラウド技術のトレンドをレポートしよう。
グーグル エクサバイト級データを処理
SOCC 2010の基調講演では、グーグルのフェローであるジェフリー・ディーン氏が、クラスターソフトを設計する上でのポイントを解説した。ディーン氏は、グーグルクラウドを支える分散ファイルシステム「Google File System(GFS)」、キー・バリュー型データストア(KVS)「BigTable」、並列バッチ処理機構「MapReduce」の三つのうち、BigTableとMapReduceを開発した人物だ(図)。
BigTableは、構造化データを低遅延で処理するためのDB。「Google Maps」などユーザーによる操作に即座に応答する必要があるアプリケーションに使われている。MapReduceは、様々なタイプのデータに対するバッチ処理を行う基盤。主にWeb検索システムのインデックスを作成するのに使われている。GFSは、BigTableやMapReduceのデータを保存するファイルシステムだ。
グーグルは現在、MapReduceを使って月間で94万6460テ ラバイトのデータを解析する(図の表)。そのために費やされるサーバーの仕事量は、3万9121台のサーバーを1年間連続稼働したのに相当する「3万9121サーバー年」。1カ月にこの仕事量を成し遂げるためには、少なくとも46万9452台のサーバーが必要であり、グーグルクラウドの巨大さがうかがい知れる。
続きは日経コンピュータ9月1日号をお読み下さい。この号のご購入はバックナンバーをご利用ください。