大个子如何监视他们的服务器?

我想知道什么软件的networking规模家伙用于监测服务器场(S)中的服务器的narrays。

facebook,twitter,digg使用什么? 谷歌如何做到这一点?

我正在寻找解决scheme来满足我们自己的监测要求。 我们的服务器位于云端AppEngine&EC2。 我们希望监视“应用程序”(这是由许多小型服务构build的),这意味着最终结果应该是一个可以监视响应时间(+ alivenss和co。)和应用程序有效性的系统:如果我做X,那么Y应该会发生,然后2小时后确认Z被处理,T被追加到正确的日志…

理想的解决scheme将是一个我可以部署unit testing的系统,我正在使用同样的unit testing来在开发过程中testing软件。

build议,指针,意见非常受欢迎 – 我正在寻找方向来攻击这个问题。

谢谢,Maxim。

我前一阵子看了。 这是“Facebook运营生活中的一天”。 他们使用cfengine2(部署),nagios(监控),神经节(监控和趋势)以及许多内部工具。 有趣的是,我们使用的一些工具被用于如此庞大的规模(+ 60.000台服务器)