PR

富士通クラウドテクノロジーズのクラウドサービス「ニフクラ」で障害が発生。オブジェクトストレージのサービスが利用できなくなった。原因はアプライアンス製品のソフトの不具合。全面復旧に1カ月以上を要した。障害への対応に利用企業から不満の声も挙がった。

 2018年1月19日午後6時44分。都内のITベンダー、エンタップに1通のメールが届いた。顧客の中堅印刷会社からだ。「当社のEC(電子商取引)サイトで、印刷画像のプレビューページが見られません。ブラウザーが真っ白になります」。エンタップはこの印刷会社のECサイトを運用している。

 同社が1月20日朝に確認したところ、「状況は改善されているように見えた」(エンタップの松岡利昌社長)。だが週明けの22日に印刷会社に連絡を取ると、問題が再発しているという。再度確認すると「最悪の状況であることが分かった」(同)。ECサイトが使用しているクラウドサービス「ニフクラ(旧ニフティクラウド)」のオブジェクトストレージから全く応答が返ってこないのだ。オブジェクトストレージは大容量データの保存に向く安価なデータ格納サービスである。

 データベースが重かったり、ECの注文が殺到したりしているわけではない。にもかかわらず、「レスポンス待ちが続いてプログラムが止まり、サイト全体の負荷が高まっていた」と松岡氏は証言する。

 原因はオブジェクトストレージの障害だった。全面復旧したのは1カ月以上後の2月26日。前出の印刷会社を含む数十件が影響を受けたとみられる。ニフクラを提供する富士通クラウドテクノロジーズの上野貴也クラウドサービス事業本部長は「1日を超える障害は初めての経験。長期間ご迷惑をお掛けして大変申し訳ない」と謝罪する。

図 クラウドサービス「ニフクラ」で発生した障害対応の経緯と、障害を告知したWebサイト(右)
図 クラウドサービス「ニフクラ」で発生した障害対応の経緯と、障害を告知したWebサイト(右)
復旧に1カ月以上を要した
[画像のクリックで拡大表示]

サービス拠点は1カ所だけだった

 ニフクラのオブジェクトストレージはAPI(アプリケーション・プログラミング・インタフェース)経由でファイルサーバーとしても使える。米アマゾン・ドット・コムの「Amazon S3」が市場を席巻する中で「国内の顧客から比較的アクセス頻度の低いデータを格納できる安価なサービスに対するニーズが高まっていた」(上野氏)ため、2016年6月に提供を始めた。

 ニフクラの契約件数は全体で約6000件。そのうち「1%程度がオブジェクトストレージを使用している」(上野氏)という。主な用途はログの保存、画像や動画など容量が一定でないWebコンテンツの保管、データのバックアップなどだ。

 富士通クラウドテクノロジーズがオブジェクトストレージの障害に気づいたのは1月19日午後5時40分。利用しているアプライアンス製品で実行中のプロセスがダウンし、ストレージの読み書きができなくなった。21日までにシステム運用に必要な常駐プログラムの再起動やデータの再配置(リバランス)を実施したが復旧できなかった。

 同社は東日本と西日本、北米という3つのリージョン(地域)からニフクラのサービスを提供しているが、オブジェクトストレージを扱っているのは東日本のみ。あらかじめ決めていた回復手順は機能せず、東日本の本番機の復旧は一時的に断念した。

ソフトに不具合、「Cephではない」

 富士通クラウドテクノロジーズは利用者に対し、西日本への移行を促すことに決めた。実は障害前から西日本でもオブジェクトストレージの準備を進めており、提供開始を前倒しした形だ。1月22日から希望者を募り、26日までにユーザーの約2割が西日本に移行し、サービスの利用を再開した。

 残る8割のユーザーには「オブジェクトストレージ以外のニフクラの別サーバーへの移行などで対応した」(上野氏)という。ただし、全てのユーザーが移行できたわけではない。ファイルサーバー用途で使っていた一部顧客は切り替えのためのソフトウエア改修が必要で移行の難易度が高く、東日本の復旧を待たざるを得なかった。

 同社が解析した結果、アプライアンス製品で利用するソフトウエアの不具合が障害の原因だと1月23日に判明。27日にソフトウエア開発元から不具合に対応したパッチソフトの提供を受け、翌28日に読み出し(Read)のみでサービスを暫定的に再開した。

 アプライアンス製品やソフトウエアの開発元は明らかにしていない。同サービスはOSS(オープンソースソフトウエア)の分散ファイルシステム「Ceph」を使っているが、不具合が生じたのは「Cephではない」(上野氏)としている。

 書き込み(Write)の復旧には、データの管理情報を修正する必要があり、この検証が長期にわたった。東日本で書き込みを含めてサービスが全面復旧したのは、障害発生から1カ月以上経った2月26日午後3時30分だった。