PR

 米Storwizeは,NASストレージへのアクセス経路の途中に設置するだけでストレージ格納データを自動的に圧縮・伸長するネットワーク・アプライアンス「STN-6000シリーズ」を開発している。IPパケットのデータ部分を圧縮する方式を採用しており,サーバー機やストレージから見て存在を意識することなくアクセス透過型で使えるのが特徴だ。ITproは,来日中の同社CEOに,ストレージ・データ圧縮の市場動向を聞いた。

(聞き手は日川 佳三=ITpro


米StorwizeでCEO & Founderを務めるGal Naor氏(写真左)と,Country Managerを務めるOren Maguid氏(写真右)
米StorwizeでCEO & Founderを務めるGal Naor氏(写真左)と,Country Managerを務めるOren Maguid氏(写真右)
[画像のクリックで拡大表示]

米Storwizeは,ストレージ・データを圧縮するアプライアンスを開発している。製品の特徴は何か。

 “オンライン圧縮”という点だ。業務アプリケーションやデータベースから日常的にアクセスする1次ストレージの手前に配置して運用する。ストレージや業務アプリケーションには何の影響も与えず,アクセス透過型で利用できる。当社のアプライアンスをサーバー機とストレージの間に配置するだけで,自動的に格納データ量を削減し,かつデータへのアクセス・スループットを向上させる。機能はシンプルであり,汎用性が高い。他の技術とも組み合わせやすい。

 現在,世の中を見渡すと,同じ部分を見つけて取り除く重複排除機能で,ストレージ・データの量を削減する製品は多い。だが,こうした製品は,後処理でのデータ削減,すなわちデータを格納するストレージの部分でデータ量を削減するものだ。主な用途も,1次ストレージではなく,データ・バックアップやアーカイブといったケースが多い。米Storwizeのような,1次ストレージの手前で,その存在を意識させることなく利用できるという仕組みは,ユニークだろう。

 当社の現状のアプライアンス製品は,2004年の会社設立から現行のSTN-6000シリーズまで,データ圧縮可能なアプリケーションはNASプロトコル(CIFS/NFS)に限られる。だが,FC(FibreChannel)向けの技術も開発済みであり,需要があればすぐに製品を投入できる。業績も好調だ。これまで,四半期ごとの成長率は10%を維持しており,2009年には年間で500%の成長を見込んでいる。

最新モデルでは,どういった進化が図られているのか。

 64ビット・アーキテクチャへの移行などにより,データ圧縮によるデータ削減率とスループット性能を,ともに向上させた。現在のデータ圧縮率は15倍をうたっており,当社の従来モデルと比べて50%ほど向上している。最上位モデル「STN-6800p」のスループットは600Mバイト/秒であり,従来モデルの220Mバイト/秒からみて約3倍に向上している。

 データ圧縮率とスループットのバランスには工夫を凝らした。単にデータ圧縮率だけを高めると,圧縮の前提となるデータ,すなわち繰り返して登場する重複データを探すのに時間がかかり,遅延が発生する。すると,実質的なアクセス性能やスループットに影響が出てしまう。

 当社は,ファイル単位で重複を見つけてデータを圧縮している。だが,実際のデータ圧縮は,ファイル情報をやりとりする複数のIPパケットごとに,ヘッダー部分を除いたデータ部分に対して個別に実行している。複数のIPパケットにまたがる重複を排除するようなデータ圧縮率の調整が可能である。そのため,スループットに影響する。

データ圧縮率とスループットが重要である理由は何か。

 データ圧縮が重要な理由の1つは,データ量の削減によって単純にストレージ容量を減らせるということだ。だが,データ量が減ることのメリットは,単にストレージ製品の維持にかかる費用が減ったり,バックアップ時間が減る,というだけではない。どういうことなのか説明しよう。

 データ量の削減は,ストレージが搭載するディスク・キャッシュ・メモリー(以下,キャッシュ)の効果を高めるという意味がある。例えば,64Mバイトのキャッシュを搭載している場合,データ量を15分の1に削減できれば,単純に64Mバイト×15の1Tバイトのキャッシュを持っているのと同じ効果が得られるわけだ。キャッシュのヒット率が高まるため,ストレージ・アクセスが高速化するのだ。

 もう1つの理由は,データ量の削減によって,ストレージ製品などが備えるブロック単位でのデータ重複排除機能の性能を高めることができるということだ。具体的には,前処理でデータ量を削減しておくことによって,重複排除時に必要な作業であるストレージ・データのスキャンにかかる時間が短くなる。データ量が少なければ少ないほど,スキャン時間が短くなる,という理屈だ。実際に当社事例や製品を調査したところ,スキャン時間の短縮効果は76%ほどになった。