logging事后检查的中断

过去一周,我们发生了相当严重的中断,影响了几项服务,这些服务将我们从客户的SLA中解放出来。 现在一切都已经解决了,我正在进行一次验尸。

从这次审查,我想提出一个内部文件,描述中断,其影响,我们的反应和决议。 我想提出一个相当标准的表格供将来重用。 我在下面列出了我的想法,但还应包括哪些其他项目? 如果这是一个与安全有关的事件,你会添加什么?

  • 摘要事件的执行级摘要。
  • 受影响的服务
  • 影响对我们的用户和SLA有什么影响? 有没有美元的成本,错过的交易,客户stream失等?
  • 停电时间对于每个受影响的服务,如果有差异
  • 原因包括主要和次要原因
  • parsing度
  • 事件时间表通知,与外部供应商联系,客户通知,回复等
  • 我们的回应存在问题我们对停电的回应是否按计划进行? 正确的人通知? 供应商是否履行合同义务?
  • 采取的预防措施我们如何防止再次发生停电或减less其影响?
  • 检测方法我们如何检测到这个中断,以及我们将来如何改进检测?
  • 在未来停机响应中做出的变化

尽量保持文章的一个项目和解释,这个职位可以更新与顶部投票的答案。

虽然可以采取预防措施 ,但我build议您使用检测方法部分来logging真实的症状,以及如果再次发生问题(更快),那么最好使用自动化。

看起来不错。 我只会添加以下内容:

影响/后果 :中断的后果是什么 – 谁受到影响,哪些SLA受到侵犯(如果有的话),是否存在连锁反应?

受影响的服务和停机时间只能告诉您停电的情况。 你也想知道对业务的影响是什么。

影响 :这对用户有什么影响?如何感知? 这花费我们多less钱(失去SLA,丢失订单等)?

公开发布和内部发布

这是pipe理层决定的更多的东西,但是你也许应该包括什么应该发布给客户,或者你的build议。 无论是哪一种方式,都可以在发布任何东西之前,向客户发布准确的措辞,从pipe理层中签字。

公开发布应该包含在这个内容中,这样公司中的任何人都知道他们可以告诉客户什么。