ファーストサーバの手順の問題点

えらいことなってますが。


正規手順と今回の現象の説明などを含めた中間報告が出されています。
http://support.fsv.jp/info/nw20120625_01.html


ここで、正規手順で、途中でオペレーションミスがあったときに復旧できない状態になってしまう可能性があることがわかります。
具体的には「原因3:メンテナンス仕様」のこの部分。

脆弱性対策のメンテナンスに関しては対象サーバー群とそのサーバー群のバックアップ領域に対して同時に更新プログラムを適用する

この時点でこの更新プログラムに不具合があった場合には、リストアできなくなることになるわけです。そして今回はそれがおきたようです。
より安全な手順であれば、バックアップ側にパッチをあてている間は正常系がバックアップのバックアップということになるはず*1ですが、どこにもバックアップがない状態になってしまったわけです。


手順1でプログラムを書く、手順2で確認する、手順3で適用するという過程において、プログラムを間違えること、確認ミスでプログラム不備に気づかないことというのは残念ながら珍しくないのですが、そのときこの手順3では不備プログラムの適用に対して無防備だったわけです。


新井さんがこういうことを言ってました。

バックアップというよりも「待機系サーバ」っていう考え方だったんだろうね。「スタンバイとバックアップは違う」という思想がなかったのが最大の敗因かもね。

こういった認識のズレが、やっぱ根本にあったのかなーと思います。
新井さんもこの件に関してブログ書いています。
ファーストサーバの事故から考えること | 日に以て親しむ-新井俊一ブログ


やはり、失敗学は勉強しなくては、と思いました。

失敗学のすすめ (講談社文庫)

失敗学のすすめ (講談社文庫)


2012/6/29追記:タイトル表記をファーストサーバーからファーストサーバに修正しました

*1:もちろんバックアップ中に正常系が飛んだらダメですが、今回のような大惨事にはなりにくいです