障害はいつもまとめてやってくる

Facebooktwittergoogle_plus

「天災と親戚は忘れた頃にやってくる」などと申しますが、私のいる業界では、「障害はいつもまとめてやってくる」と密かにささやかれています。システムの一か所がおかしくなると、連鎖的にほかの部分もうまく機能しないってこともありますし、まったく関係ないところで同時多発的に起きることもあります。

ある朝、全く別々のシステムの別々お客さんから、システムの不具合の報告が来て、ばたばたと両方を同時に確認しながら、原因究明をしていると、またほぼ同時に「すみません、こちらの勘違いでした」という電話がかかってきたり。しかも、その日の午後にはまた同じような問い合わせが来たり。「なーんて日だ?朝起きたら、今日はひとつ、ナカマにいやな電話でもしてみるか!って同時に三人考えたのか?」みたいな日です。

ビルの法定停電でサービスを1日止めたあと、サーバの起動をかけたら、あるプロジェクトで使っていたサーバが4台すべて、ハード故障で立ち上がらなくなったこともあります。WebとDBのメインとサブで4台。これだけあれば、どんな障害でも安全だと思ってました。たとえ4台に同時に何かが起こっても、Raid1で最低でもデータは残ってるなんて思っていたら、サポートの方が、「すみません、片方のディスクが壊れたときに、もう片方にも壊れたデータが書き込まれたようで、データの復旧はできません。」っと説明されたときは、もうこりゃダメだ。チームメンバーも今日明日の復旧は無理だから帰ろ帰ろみたいな雰囲気になって、開き直るしかありませんでした。

今日も朝からお客のサーバが突然止まってしまってしまい、サーバの再起動で何事もなくサービスは立ち上がったんですが、停止していたおかげでデータの2重化がちゃんとできていなかったことがわかり、それを元に戻すにはDBを一旦停止が必要となったため、それを業務時間後に行うことになりました。。
そういう日に限って、夜予定が入っていて、一台30分で復旧させるぞっと意気込んでみても、予算的に潤沢ではないプロジェクトなので、5台のサーバにモニタは1台。それも、かっちょいいCPUチェンジャーではなく、手動のつなぎ替えのモニタ。いちいち切り替えながら作業をしてたら、今度はコマンドがちゃんと通らない。なんでだろうとよくよく探ってみたら、パスワードの大文字Kが打てない。おいおいおい、この期に及んで、キーボードまで不具合かい。しょうがないから、わざわざ大文字Kの出るコマンドをコンソールで叩いて、そのKをコピペで使うという、めんどくさい作業を強いられました。
何とか予定通りの時間に作業は終了しましたが、まったく、嫌なことは重なるもんです。

運命とかジンクスとかなんてIT業界は一番遠い業種だって思われるかもしれませんが、自分は朝何か起きると今日はそういう日だから、午後も何か起きるはずだと心の準備をするようにしています。