我有一个networking系统。 我需要计算整个系统的运行时间。 我有负载平衡(在没有虚拟IP和冗余负载平衡的时刻),一个数据库。 两台服务器作为集群。 主机提供商。
有人可以用粗鲁的步骤告诉我如何采取这一切,我怎样才能估计系统的运行时间?
如何计算复杂系统的运行时间?
我知道这很难说,但请解释一些一般的方法。
一般来说,你已经完成了整个设置,因为只要面向客户的部分仍然存在,你就不会特别关心它的一个方面是否有问题。 有些正常运行时间检查程序只检查来自您的网站的200 HTTP响应(即使该响应被SQL错误覆盖),其他人则更具体一些。
一般来说,这是您的业务计划/ SLA,您需要编写它。 你需要什么? 如果用户只要其他所有工作都无法login,那么这很重要吗? 你只需要你的索引页面? 或者在你考虑正常运行之前,你是否需要加载所有的东西?
不要试图计算所有事情的正常运行时间,只能衡量重要的事情 – 最终的结果。
从底层(电力,冷却…)到顶层(软件层)工作。 即使是最好的软件和最好的集群解决scheme也不能帮助你,如果你在一个数据中心拥有所有的东西,并且突然崩溃了。
你的问题非常复杂,在计算的时候至less要考虑到这些因素:
你的数据如何存储? 在一个数据中心? 在多个数据中心?
数据中心是否可靠? 他们之间的networking连接如何?
您的路由器,负载均衡器,服务器和其他设备是否可靠?您是否需要经常更换部件?
在进行定期维护的同时,您是否需要closures整个站点,或者是否能够更新软件等,而不使站点脱机?
你如何准备外部攻击,如DDoS?
如果数据库,文件服务器或其他关键组件出现问题怎么办? 是的,你提到他们是聚集在一起的。 这并不意味着他们不能下去。
你可以从备份恢复多快?
你认为什么“网站是”? 前面的页面? 现有login用户正常工作,但无法添加/删除帐户? 网站必须在不超过X秒内做出回应? 一切都必须是100%一stream?
或者,如果通过计算你的意思是监测,所以你可以看到总体趋势和当前状态,然后看看Nagios 。