全3900文字
PR

Twitterやサイトで措置を公表

 午後3時45分にこれらのバッチプログラムを実行したところ、サービス用システムはほぼ正常な状態に戻った。エンジニアらはDB上のデータに不整合が起こっていないかどうかや、システム内部に他の障害が発生していないかを調べた。午後6時48分に問題ないことを確認して、現場での障害対応を終えた。

 対外的な状況報告は障害が復旧した後も続けた。午前11時35分にシステム障害のお知らせを自社サイトに掲示し、午前11時54分には公式Twitterアカウントで復旧のお知らせを投稿した。午後6時9分には自社サイトで公開していたお知らせの内容を更新して、システムの障害発生から復旧に至るまでの過程や原因など、障害対応の現場からの報告を内容に加えた。

 午後6時9分に変更したお知らせではビジネス面での措置も公表した。PR TIMESは会員企業に向けて、何回でもプレスリリースを配信できる定額プランと、プレスリリース1本につき料金が発生する従量課金プランを提供している。このうち従量課金プランの会員企業がシステム障害の発生中に予約配信できなかったプレスリリース41本については、その料金を無料にした。

初動体制を見直し移行を完了

 システム障害についてPR TIMESの三島取締役は次のように話す。「プレスリリースは決まった時間に配信できなくてはいけない。システム障害でその配信が遅れたことについては何の申し開きもできない。再発防止策を徹底させていく」。さらに「ここ数年、大規模なシステム障害がなかったこともあり、安定稼働について慢心があったかもしれない」と振り返る。

 スイッチがなぜ動かなくなったのかについては原因がはっきりしないという。PR TIMESはシステムの運用体制やシステムそのものを見直すことで再発防止を進めている。

 運用体制については、障害によって課題となった初動を中心に見直す。具体的にはシステムからのアラートメッセージをSlackだけでなく電話にも通知するようにして、エンジニアが夜中でも気付きやすくした。以前は電話通知の仕組みを取り入れていたが、業務の見直しを経てなくしていた。今回の障害を機に復活させた。

 Slackで表示させるアラートメッセージの重み付けも見直した。大規模障害に関するアラートメッセージが他のメッセージと区別しにくくなっていた。今回のような大きな障害に関するメッセージにすぐ気付けるように、Slack上で強調表示させるメッセージの種類を絞り込んでいる。

 2019年10月19日には旧DCで稼働していたWebサーバーも新しいDCに移行した。これによってDCの問題は解消している。