ファーストサーバー、追加報告にさらに深まる謎
ファーストサーバーの障害に関する追加報告ですが・・・1.今回の大規模障害の発端は、サーバー群に対して脆弱性対策のメンテナンスを行なう更新プログラムの不備にある。2.更新プログラムにおいて、ファイル削除コマンドを停止させる記述、そしてメンテナンス対象のサーバーを指定するための記述が漏れていた。1.脆弱性対策? ←単なる退会者の不要ディレクトリ、不要データ、不要データベースの削除処理のことでは?2.ファイル削除コマンドを停止させる記述? ←rm(リムーブ)コマンドをループで回すシェルの終了条件が漏れていただけでは? まさか禁じ手の「rm -f 全部」なんか使ってませんよね? 特定のサーバーだけを狙い撃ちでファイル削除を行うためには、リモートシェルでrmを発行しなければならないはずで、リモートシェルでサーバー名指定でrmを発行するなんて言う大胆なことをやるのだろうか? 普通は安全を考えて各サーバーに子シェルを置いて、子シェルをリモートシェルで起動するようにするはずでは?という細かい突っ込みよりも、もっと重要なことが抜けています。1.ファイルが片っ端から削除されたと言うことは、ルート権限でサブディレクトリ毎の強制削除を行った筈で、こんな危険なシェルを一気に全サーバーに適用することは考えられない。少なくとも本番機のミラー環境を持つ開発機で十分テストしてから、まずは一台の本番サーバーでうまくいくことを確認後、順次他のサーバーに適用するのが筋。ミラー環境を準備するのがめんどくさかったか、根拠の無い自信家の暴走を食い止める仕組みが存在していなかったから?2.たとえばファイル削除を実行するのであれば、あらかじめ削除対象をリストにするサブルーチンを作って、リストを読み込んで削除を行うというステップ処理は考えられなかったのか? これなら、削除する前に削除対象を確認できるので誤削除を防止できる筈。いずれにしても、現場の担当者がやっていることを全く理解できないマネージャが管理していることが、ファーストサーバーの最大の欠陥です。
ファーストサーバーHP:http://www.fsv.jp/
http://www.e-nekorakuen.net/wp-content/uploads/d3diary/00c2c6fe2667b01f2034133df8a6d178d7.jpg