February 17, 2009
何故か障害は出社中に集中する。
会社のエレベーター待ちでモバツイにアクセスすると、いつもと違うエラーメッセージ。
家にいる奥さんに画面を見てもらうと、「execption EMASK」のような文字が出てるとのこと。このキーワードで検索すると、あのHDD突然死のニュースが。
Seagate Barracuda 7200.11のファームウェア問題:ぴろにっき:So-net blog
例の突然死なのかなー。でも、おいらのDBのHDDは、「ST3160815AS」だよ。
「7200.11」じゃなくて、「7200.10」の方。
だからあのニュースが出たときも安心してたんだ。
なお、Webサーバも同じ機種。スペアHDDがあるからわざわざ同じ機種を買った。
こっちも死ぬのか?
現在はモバツイや、このblogのシステムであるMovableTypeのDBも、レプリケーション先のバックアップサーバの方に接続するように変更したからとりあえずサービスは動いてる。
でも、バックアップサーバ(PowerEdge 430C / celeron 2.5GHz)は、今のモバツイのアクセス数には非力でメインのDBサーバと同じぐらい負荷をかけるとCPU使用率がほぼ100%に張り付いてて、サービスに影響が出ていたので、いくばくかのサービスや機能を止めているのが今の状況。
ということで、この状況は長く続けたくないので、帰りにHGSTあたりのHDDを2台ばかし買って帰るしかないかなぁ…。
ファームウエアのアップデートで直ったらうれしいし、Linuxの場合はRAIDが片方死んだだけでOSが落ちるケースもあるそうなので、もしかしたらスペアをつければ直るのかもしれないけど、何も買わずに家に帰って、一晩失うのはもったいない。
今回は年末作業でレプリケーション環境をちゃんと作っておいたのが功を奏し、1hも止まらずにサービスを復旧させてるけど、現状、うちのサーバ環境で、これが止まるとヤバイと言うあたりを自分のためにメモしておく。
1.SSHの接続先サーバが止まったら何もできなくなる。
⇒接続サーバを冗長化しておくべき。NATの設定が変えられないと、フロントのサーバが死んだらにっちもさっちもいかなくなる。
⇒TODO
シリコンディスクによるLinuxマシン欲しいし、どこでもLAN(VPN)経由でWindows環境を常時接続可能にしておくのでも良いかも。
2.DNSサーバが止まったら家の中から障害の切り分けができない。
⇒DNSサーバは分離したいなぁ。DNSが止まると電話越しに何も確認できん。
3.ハブ故障やLANケーブル切断、ルーターが止まったら障害切り分け不可
⇒これはしょうがない。家に帰るまでサービス停止。
先日、実際にハブが壊れて家に帰った。(今日も早退したいよ)
4.Apacheのサーバが止まったらバックアップサーバのapacheに切り替える。
ただしファイル古い。
⇒家にあるMacBookProを組み合わせれば復旧可能だが、普段からちゃんとrsyncしておくべき。
⇒TODO
5.DBサーバが止まったら、バックアップサーバで稼動可能
⇒イマココ
6.バックアップサーバが壊れたら、何個かの機能は止まるが全体に影響なし。
⇒直す。
7.メールサーバが止まると悲しい。
⇒エラーメールが戻る分なら死ぬほど困るわけではない。
普段からフッターにセカンドアドレスを書いておくと良いのかも。⇒TODO
8.ハード構成を外部にメモしておくこと。
出勤中に壊れて何を買って帰ればいいかがわからなくなるケースがありそう
⇒TODO
正直言って、こんな日は仕事にならん!
------------------
追記:
画面上のエラーメッセージを写真で送ってもらった。
HDD(sdc1)のエラーみたいですね。sdc1って、多分、RAIDの片翼だよなぁ・・・。
とりあえず何も買わずに家に帰ってみようかな。
------------------
追記2:
結局、ただのRAIDの片方のHDDが死んだだけというオチでした。
写真を送ってもらって原因が見えていたので、鳥料理屋さんで親子丼を食べて家に帰ってスペアのHDDでRAIDを復旧させ、さきほど2時のバッチが終わったのを見計らってモバツイの緊急メンテを入れる形で、バックアップの更新分をマスターに反映して復旧しました。
RAID1の一台が壊れただけでOSが止まるなんてのは、Windowsなどでは考えられない現象ですが、Linuxだとそういう事もあるみたいです。別に全部のLinuxが落ちるわけではないので、結局、RAIDのチップやらドライバに依存するのでしょうか?!
ソレよりも驚いたのはDBサーバに使っていたHDDは、思っていたHDDと違っていたこと。160GBのドライブかと思ったら、120GBの「7200.7」の世代のシーゲートのHDDでした。こりゃただのHDDの寿命だったかも。ということで、きっと、残り一台のドライブも先行き長くないと思うので、割と最新めの500GBプラッタのHDDを2台注文しました。RAIDは台数を買うので単価が安いことは重要ですね。
Seagate ST3500410AS 500Gプラッタモデル! 500GB SATA接続3.5型内蔵ハードディスク
特価 5,280円
技術評論社
売り上げランキング: 1178
おもしろい!
是非読むべき
Webサイト運営に携わるエンジニア必読
関連:
F's Garage:モバ ツイッター(mova twitter)のWebサーバをDellからHP ML115G5に入れ替えた。