过去一周,我们发生了相当严重的中断,影响了几项服务,这些服务将我们从客户的SLA中解放出来。 现在一切都已经解决了,我正在进行一次验尸。
从这次审查,我想提出一个内部文件,描述中断,其影响,我们的反应和决议。 我想提出一个相当标准的表格供将来重用。 我在下面列出了我的想法,但还应包括哪些其他项目? 如果这是一个与安全有关的事件,你会添加什么?
尽量保持文章的一个项目和解释,这个职位可以更新与顶部投票的答案。
虽然可以采取预防措施 ,但我build议您使用检测方法部分来logging真实的症状,以及如果再次发生问题(更快),那么最好使用自动化。
看起来不错。 我只会添加以下内容:
影响/后果 :中断的后果是什么 – 谁受到影响,哪些SLA受到侵犯(如果有的话),是否存在连锁反应?
受影响的服务和停机时间只能告诉您停电的情况。 你也想知道对业务的影响是什么。
影响 :这对用户有什么影响?如何感知? 这花费我们多less钱(失去SLA,丢失订单等)?
公开发布和内部发布
这是pipe理层决定的更多的东西,但是你也许应该包括什么应该发布给客户,或者你的build议。 无论是哪一种方式,都可以在发布任何东西之前,向客户发布准确的措辞,从pipe理层中签字。
公开发布应该包含在这个内容中,这样公司中的任何人都知道他们可以告诉客户什么。