服务运行时间保证计算

我有一个networking系统。 我需要计算整个系统的运行时间。 我有负载平衡(在没有虚拟IP和冗余负载平衡的时刻),一个数据库。 两台服务器作为集群。 主机提供商。

有人可以用粗鲁的步骤告诉我如何采取这一切,我怎样才能估计系统的运行时间?

如何计算复杂系统的运行时间?

我知道这很难说,但请解释一些一般的方法。

一般来说,你已经完成了整个设置,因为只要面向客户的部分仍然存在,你就不会特别关心它的一个方面是否有问题。 有些正常运行时间检查程序只检查来自您的网站的200 HTTP响应(即使该响应被SQL错误覆盖),其他人则更具体一些。

一般来说,这是您的业务计划/ SLA,您需要编写它。 你需要什么? 如果用户只要其他所有工作都无法login,那么这很重要吗? 你只需要你的索引页面? 或者在你考虑正常运行之前,你是否需要加载所有的东西?

不要试图计算所有事情的正常运行时间,只能衡量重要的事情 – 最终的结果。

从底层(电力,冷却…)到顶层(软件层)工作。 即使是最好的软件和最好的集群解决scheme也不能帮助你,如果你在一个数据中心拥有所有的东西,并且突然崩溃了。

你的问题非常复杂,在计算的时候至less要考虑到这些因素:

  • 你的数据如何存储? 在一个数据中心? 在多个数据中心?

  • 数据中心是否可靠? 他们之间的networking连接如何?

  • 您的路由器,负载均衡器,服务器和其他设备是否可靠?您是否需要经常更换部件?

  • 在进行定期维护的同时,您是否需要closures整个站点,或者是否能够更新软件等,而不使站点脱机?

  • 你如何准备外部攻击,如DDoS?

  • 如果数据库,文件服务器或其他关键组件出现问题怎么办? 是的,你提到他们是聚集在一起的。 这并不意味着他们不能下去。

  • 你可以从备份恢复多快?

  • 你认为什么“网站是”? 前面的页面? 现有login用户正常工作,但无法添加/删除帐户? 网站必须在不超过X秒内做出回应? 一切都必须是100%一stream?

或者,如果通过计算你的意思是监测,所以你可以看到总体趋势和当前状态,然后看看Nagios 。