如何为服务水平协议定义适当的度量?

我为一家小型开发公司工作,他们越来越多地被要求根据特定configuration为我们的产品组装正式的SLA。

从事情发展的angular度来看,我对此感到满意,然而,从硬件/平台的angular度来看,如果从硬件/平台的angular度来看并不现实,那么从软件的angular度来看,我们完全可以达到特定的目标 – 客户只关心整体系统可用性。

我应该从平台的angular度来看待什么? 什么样的指标和水平?

此外,有什么疑难问题(例如从软件的angular度来看,我从来没有承诺到一个固定的时间 – 我不知道是否要重写整个产品纠正一些东西,说我们可以修复5天是不可能的 – 我应该避免从硬件/操作系统/平台的angular度来看)?

我在这方面有丰富的经验。 我为一些财富做了大量的工作–5个像ISP一样运营数据中心的公司将需要托pipe和支持服务的各个公司部门。

它们通常有两个称为SLA(服务级别协议)和OLA(操作级别协议)的度量标准。

SLA通过使用的硬件来满足。 在谈到SLA时,我们用等级来描述它们。 SLA-1为零停机时间,SLA-2类似于停机时间长达1小时,SLA-3为8小时等等。SLA通过使用冗余设备来满足。 在一家公司,我们使用很多思科来创build高可用性(思科CSM和GSS设备)。 当谈到SLA级别时,我们通常会谈到HA(高可用性)和DR(灾难恢复)。 在公司有多个数据中心的情况下,HA组件通常是按数据中心属性,而DR是跨越数据中心属性的; 两者均以RPO(恢复点目标)和RTO(恢复时间目标)来衡量,意味着SLA级别。

从根本上说,OLA是一个人(人)以多快的速度回应需要人工干预/纠正措施的事件。 OLA通常也是以响应时间来衡量的; 他们使用相同的RTO / RPO目标。 我咨询的一家公司使用6个级别作为他们的OLA指标。 前三个级别是这样的一个例子:

OLA-1:RTO 0 <2小时OLA-2:RTO> = 2&<= 4小时OLA-3:RTO> = 24小时&30天,如果不是数据中心故障,如果直stream故障> 30天。

推动OLA和SLA指标的东西就是所谓的CIA评级。 CIA =机密性,完整性和可用性。 应用程序的数据应由支付该应用程序的业务单位进行分类。 中央情报局将帮助驱动法律厅和法律服务协议应该是什么。 CIA级别的每个部分的编号都是从1到3.所以,例如,CIA 1-1-1等级将是高度机密性,最高完整性级别和最高可用性级别。 中情局3-3-3评级是最低的你可以去。 因此,3-3-3的中央情报局评级通常映射到SLA和OLA级别6,其中SLA-6和OLA-6是最低(最长响应时间)保证。

如何获得中央情报局评级通常相当于计算出数据被盗(保密性),受损(完整性)或系统停机(可用性)时企业将浪费多less钱。 因此,如果机密数据被盗,一家公司如果泄露了1000万美元,那么C的评级可能是1,或者如果数据丢失并不重要,只会使公司损失1000美元,那么您的C等级可能是3 。

这通常是我咨询的大公司处理这样的事情。

硬件问题上的修复时间和软件上的时间一样慢。 你永远不知道什么时候你会等待一个供应商来解决某个关键的bug。 就SLA级别而言,我发现它们往往是“有人会在X小时内处理你的问题”的forms。 X如果当然取决于他们付多less钱,但是根据我的经验,1到8个小时之间似乎是正常的。

如果您被要求提供SLA来恢复安装软件的硬件问题,答案是“否”。 你可以承诺一个响应时间,但不控制整个硬件/操作系统/软件堆栈,你不能承诺一个解决时间。

也许你的客户以一种尴尬的方式告诉你他们确实需要为你的产品提供托pipe产品? 这样他们可以避免任何他们担心的内部问题,只是削减你的支票。

在签订SLA时需要考虑的一件事情是,SLA本身就意味着什么都没有,在SLA没有完成的情况下必须与惩罚一起遵守。

例如,我们的ISP在networking上给我们提供了100%的SLA,但是我们能够得到的最大数额是我们的每月账单,这个数字真的很低,因为现在的带宽很便宜,而且在networking不通的情况下, 。

而且,通常在合同中写的是人们能够多快地回应这个问题,从不需要多久才能解决问题。 所以,如果他们让你做出缩短的回应时间,只需要让一名实习生在夜class中为你洗牌,直到你醒来,然后离开。

根据我的经验,所有这些SLA业务实际上意味着非常非常less,如果有的话。