2007年11月19日月曜日

クラスタリングについて

drbd,gnbdなどの記事を上げましたが、なんでそんなことしてるんだという人がいます。ここでクラスタリングについての必要性について記事を書こうと思います。
私はサービスの突然の停止を何回も経験してきました。

まず一つにraid 1の方系運転に気がついていなくて落ちてしまうケース。
これは気がつけばいい話、と思われるかもしれませんが、これには引き継ぎなどによる情報伝達不足などのケアレスミスなどでも起こりえますし、エラー通知などの構成がハードウェアーによって違っていたりして通知されないケースも考えられます。
2つ目にディスク論理エラー(kernel panic)。
論理なのでraidなんて”関係ねー”です。fsckで修復をかけるとまったくディスク領域にアクセスできなくなってしまったりします。怖い怖い
3つ目にハードウェアーの故障
壊れやすい機器として、1位、HDD、2位、電源、3位、メモリ?!っとさまざまです。某D○○○なんかはたちがわるくて運用一週間後とかに初期不良なんかありましたね。
4つ目にメンテナンス中のケアレスミスによるデータ消去またはSQLインジェクションなどのデータ改ざんなども考えられます。

これらの障害要因があるなかで保守コストは一緒というのは割に合わなすぎです。しかもこれらが起った時点で自動的に責任がプログラマーに遷移します。前からいってたじゃんっていうのはいいわけらしいです。

そこで冗長構成をサービスの必須条件にすることで上記の問題を緩和することができます。つまりよく眠れるということです。

しかしそんな予算もって来れないよっとおっしゃる方もいるでしょう。確かにそうです。想定できないものにお金を払うことは現実的には厳しいですからね。

それではどうすればいいか。それはなぞです。というかいい方法を教えてください。

私のやり方は自腹を切るもしくはなんとか説得するということしか思いつきませんでした。

しかし、技術がなければ、説得も運用実績もつくれません。そこで私はこのブログでレポートを書きながら何かサービスを立ち上げ、運用実績を作って行こうと思います。

なんか不平不満みたいになってしまいました(^^;;

1 件のコメント:

dr_robert12 さんのコメント...

書籍では「Linuxアドバンストネットワークサーバ構築ガイド」が個人的には参考になりましたが、情報が古くなってきています。

※drbd 8.2系の情報が多く出てくると嬉しいですね。他力本願ですが・