(Elliot King)

 過去10年にわたってデータは爆発的に増大して,ストレージ・インフラの成長を促してきた。Winter Corporationが行った巨大データベースの実装例に関する調査で,最大のトランザクショナル・データベースの作業中の負荷は,2001年から2003年の間にほぼ倍になったという。Winter社によれば,2003年に最も重い実稼働中のデータベース・システムは,米US Customs & Border Protection(CBP)にあるデータベース管理システム(DBMS)だという。2001年には毎秒2万6655トランザクション(tps)だったものが毎秒5万1448トランザクション(tps)を処理するようになった。

Windowsプラットフォームもデータ増大
 CBPのデータベースは,IBM eSeriesメインフレーム上で稼働しているが,Winter社はすべてのレベルのデータベース技術で,同様の負荷増大が起きていることを見つけた。今回初めて,Winter社はWindowsプラットフォーム上で稼働しているデータベースのトップ10の名前を挙げたが,そのうち最大のものは毎秒3634トランザクションを記録した。

 こうした負荷の増大はデータ容量の増加を反映している。容量で最大の正規化されたデータ(94.3Tバイト)を持つデータベースは,AT&T Labs-Researchにある。正規化されたデータの容量は,1つのデータベースがどのくらい多くの情報を管理しているかを示す指標で,インデックスやほかの管理のためだけに使われるデータを除外したものだ。AT&Tの実装例は,AT&Tのデータベース管理ソフトウエア「Daytona」と,米Sun Microsystemsの「SunFire E10000」サーバー群,そして「Sun StorEdge」ストレージ・システムを使っている。

 Winter社が新しく作ったハイブリッド・データベースというカテゴリでは,Stanford Linear Accelerator Center(SLAC)が最大だった。このカテゴリに入るシステムでは,ほとんどの情報はディスク上ではなくテープ上に記録される。828TバイトのSLACのデータベースは,やはりSunfireとSun StorEdgeストレージ・アレイを使っている。

データ増大4つの因子
分析システムがさらに後押し

 今回話題にしたいのは,こういったデータ増大は何に由来するのか,ということだ。振り返ってみると,その答えは4つ考えられる。(1)計測システムの高性能化,(2)企業のビジネス・プロセスの自動化,(3)個人向けの生産性向上ソフトウエア,(4)分析システム――である。

 (1)の計測システムの高性能化は,アナログ・データではなくデジタル・データを捕捉するもので,科学や工学,生産工程のデータの増大を後押しした。(2)のビジネスでのデータの増大は,例えばERP(企業資源管理)やCRM(顧客リレーションシップ管理)のような,企業レベルのビジネス・プロセスを自動化するITシステムの実装によるものだ。(3)の個人の生産性向上アプリケーションとは,電子メールやワープロなどに由来する。

 (4)の分析システムは,データ増大のパズルを解く最後のピースのようなものである。企業がデータを捕捉したあと,彼らは自分たちのビジネスのプロセスと成果を向上させるためにそれを使いたいと考える。トランザクショナルなデータを,分析に適した形のデータに変えることは,さらにより多くのデータを生み出し,結果としてデータが増える大きな原因になる。

大容量の携帯機器が企業のデータを増やす
 将来,確実に新しい急激なデータ増の原因となるものも分かっている。これらはオーディオ,ビデオ,データ管理機能のある携帯機器の普及,RFID(無線ICタグ)の実用化など,新しいデータ形式の広がりである。デジタル・オーディオ/ビデオは登場してから四半世紀に過ぎた。だが,ネットワークとストレージの技術が進歩してきたのと同じく,デジタル・オーディオ/ビデオの利用も拡大してきた。例えば,マスコミは米Apple Computerのミュージック・プレーヤー「iPod」の衝撃的な登場に群がった。iPodはストレージの1つの使い方を語るものでもある。人々は突然1000曲もの音楽を非常に妥当な値段で買い,それらを持ち歩けるようになった。コンピュータ・ネットワークを介したオーディオ・ファイルのレコーディングや伝送,受信は次第に簡単になっており,今後は企業内でのオーディオの新たな利用例も登場するだろう。

 iPodは登場したばかりの新世代デバイスの1つに過ぎない。つまり,ユーザーがデータを手元で管理でき,ストレージ・インフラを使って定期的にそのデータを同期するシステムの1つなのだ。フィールド・サービスから医療データの管理に至るまで,業務向けの特殊な携帯機器が現在開発されている最中だ。かなり大きなデータをローカルで管理する携帯機器をどんどん使うようになれば,最終的には企業のストレージ装置へ転送されるデータをよりたくさん生成することにつながる。

無線ICタグは“データ津波”を引き起こす
 一方,RFIDは将来のデータの増加に重大な影響を持つ。専門家たちは,サプライ・チェーンでのトラッキングの手段として使われるRFIDを,統一商品コード(UPCs)の開発以来,最も重要な情報技術だと見ている。そのうち実質的にすべての商品が小さな無線送信タグを付けられることになるだろう。トラッキングは最初に考えられた用途だが,他の用途のための追加データを生み出すようにタグが変化するのは間違いなく,そしてそのデータもどこかに保存しなければならなくなる。事業の経営者はきっとそのデータを分析したいと思うだろうし,それを分析に適したフォーマットに変更することは,結果的に保存しなければならないデータをさらに増やすことになる。

 記録されるデータの数は過去10年で急速に増えた。しかし,現在登場しているいろいろな技術は,今後数年のうちに本当のデータの津波を引き起こすだろう。