对于我的许多现场服务,我让他们发电子邮件给我关于关键任务的成功(和失败)。 我成功的电子邮件的原因,有时失败是一种性质,该服务不能通过电子邮件发送失败警报。
不幸的是,这并没有规模,我现在得到这么多的警报,我没有真正监视它们,但我不能提醒失败,因为这是过去太不可靠了。
理想情况下,我想要的是云服务(或邮箱),类似于Pingdom,我也可以发送/转发这些警报,当它收到故障警报时会发送电子邮件/短信,或者它没有成功警报。
有人有主意吗?
你所提出的是有效地重新实现你的监控系统(通过将当前系统的警报提供给另一个监控系统,如果不能保证一切正常,那么这个监控系统足够聪明,知道有什么错误)。
这几乎肯定不是你所需要的。 您需要的是现场监控和非现场监控的组合,当发生故障时(从内部系统正常或外部系统出于某种原因内部系统出现故障), 可靠地向您发送故障警报。
请记住以下监控系统公理:
对成功的警报是监视系统中最常见的业余configuration错误。
一个监控系统只能提醒你需要采取行动的事情。
根据定义,成功不是一个需要采取行动的事件,所以不应该产生警报。
成功的缺失在定义上是“失败的”,所以应该产生可操作的失败警报。
发送“一切正常”的状态消息最终会引导人们忽略来自监控系统的消息(因为大部分时间都不需要采取行动)。 你希望监测警报是激发人们行动的令人震惊的事件,而不是从肌肉记忆中从收件箱中删除的例行公害。