ソフトバンク系列のレンタルサーバー、「ファーストサーバー」が大規模障害を起こした。
幸いにも私はファーストサーバーを利用していないので直接の被害はなかった。
ファーストサーバーが発表した障害の中間報告をみて驚いた。
原因3:メンテナンス仕様
システムを含むデータのバックアップは毎朝6時に取得しております。しかしながら、脆弱性対策のためのメンテナンスはバックアップをしてあるシステムについても実施しておかないと、メンテナンス実施後にハードウェア障害が発生してバックアップに切り替えた途端に脆弱性対策が講じられていないシステムに戻ってしまうことが過去に発生し、脆弱性対策がなされていないシステムが動き続けていたという反省に立ち、脆弱性対策のメンテナンスに関しては対象サーバー群とそのサーバー群のバックアップ領域に対して同時に更新プログラムを適用するという構造に修正して実施しました。そのため、今回のメンテナンス実施において、対象サーバー群のデータ消失と同時にバックアップ領域のデータも消失したという事象に至っています。
システムを含むデータのバックアップは毎朝6時に取得しております。しかしながら、脆弱性対策のためのメンテナンスはバックアップをしてあるシステムについても実施しておかないと、メンテナンス実施後にハードウェア障害が発生してバックアップに切り替えた途端に脆弱性対策が講じられていないシステムに戻ってしまうことが過去に発生し、脆弱性対策がなされていないシステムが動き続けていたという反省に立ち、脆弱性対策のメンテナンスに関しては対象サーバー群とそのサーバー群のバックアップ領域に対して同時に更新プログラムを適用するという構造に修正して実施しました。そのため、今回のメンテナンス実施において、対象サーバー群のデータ消失と同時にバックアップ領域のデータも消失したという事象に至っています。
このメンテナンス仕様は私だったら怖くて運用できない。そもそも何のためのバックアップなのか。
ちなみに私が管理しているサーバーにパッチあてるときの手順は以下。
1.サーバー停止
2.フルバックアップ取得
3.パッチあて
4.検証
5.パッチ群が複数ある場合は 2~4を繰り返し、バックアップは最初のフルバックアップからの差分バックアップを別々に取得。
6.サーバー起動
まぁ管理する台数が違うから、こんなことは出来ないのかなぁ。
でもファーストサーバーの手順だとバックアップと言えないんじゃ・・・