如何计算SLA可用性

想象一下,我们有一个99.9%可用性的API服务。

所以这个API每天只能下降1m 26.4s

那么如何测量一个API是否失效呢? 国际海事组织,我需要一个采样率,在SLA合同呢?

有人能给我一个例子吗?

你需要监视它。

首先,您需要说明如何为您的api定义停机时间。 它被定义为客户端无法连接,是否定义为没有方法正在工作,至less有一个方法定义为不工作?

下一步是写自定义监控脚本或设置公共监控解决scheme(取决于步骤1),让这个监控你的API。

采样率取决于您的资源,但通常情况会更好。 我在10s / check到2min / check范围内有多次检查。

当然,您应该监视来自不同networking的API,以消除一个networking或一个探针的问题。 因此,您可以通过监控脚本在互联网上说3个虚拟机,这些虚拟机将定期检查您的API并报告状态,测量您的SLA,在发生中断时提醒您等等。

参见:newrelic,pagerduty,thousandeyes,zabbix,nagios