每晚备份(也可能是其他任务)导致服务器警报

我有两个独立的警报通知系统为我的服务器。 服务器是Linode上的虚拟机,其中一个警报来自Linode。 我们使用的另一个监控系统是New Relic。 他们都在关注IO利用率。

每天晚上,当服务器使用太多的IO时,我都会收到警报。 我在半夜执行了几项任务,但是我确认可能会导致IO警告正在运行备份。 备份由s3cmd sync完成。 我尝试了ionice,但它仍然产生警告。

每天晚上发出警告会降低警告发生时的效力。 对于Linode,我可以提高发出警告的水平,但是这可能意味着整个事情都是无用的,因为水平太高。

这将是什么适当的解决scheme?

首先,问自己一个重要的问题: “这个警报是否会告诉我有用的东西?
您的服务器的工作负载是否受I / O限制,并且I / O警报会在实际发生之前警告您存在问题? 是否还有其他更好的指标可以监测(比如对服务器的HTTP请求的响应时间?)

如果警报不会有帮助,请禁用它。
正如您已经正确指出的那样,“噪声警报”降低了监测系统的有效性,所以如果这个警报只是噪声closures,那么就完成了。


如果警报在您的环境中确实有用,但是在某些时间段内没有用处,则需要检查您的监控系统,并查看是否可以在特定时间段禁用警报(大多数情况下 – 我不确定关于Linode或New Relic ,但他们的文档或技术支持人员当然可以帮助你)。

如果您的监控系统在特定时间段内无法暂停警报,您可以使用procmail规则(或类似的邮件过滤)完成同样的事情。 这需要您将邮件传递到已过滤的邮箱,但是您可以根据需要将其转发给传呼机,手机等。
(如果您使用这样的邮件过滤解决scheme,请确保logging它,以便下一个pipe理员知道为什么他们不会在窗口中发出警报!有一天可能会有一个真正的问题,错过警报可能是一件坏事。)