所以我们在CentOS上运行Groundworks(用Nagios)来监视我们的各种服务器和进程。 我有它设置为自动发送电子邮件和短信文本时,达到警告或危急状态。 通常这是完美的。 但是,两次我们遇到了Postfix在Postfix决定停止发送邮件的问题。 最近的时间持续了4天,因为我们没有人注意到。
这导致我有一个重要的问题:我该如何监控我的监控服务器?
当然还有第二台监控服务器。 第二个可以简单得多,因为它只需要监视第一个。 当然,它应该由主监控系统轮stream监控。
如果您的团队属于拥有独立IT基础设施的较大型组织的一部分,则您可以安排另一组的监控服务来观察您的情况。
你也可以确保服务器每天发送一个“没关系”的消息,养成寻找它的习惯。 (当然,这只有在你没有被例行消息所淹没时才有效)。
其他人build议发出定期的消息说事情没问题,但我个人不同意。 除非有问题,否则监测应该保持沉默,不要依赖用户注意到有什么问题,比如“噢,我几天没有收到每天的电子邮件”。 特别是如果你有不止一个人对警报作出响应,每个人都可能认为对方已经删除了每天“我很好”的消息。
我们有一个外部服务(其中有数百个,但是我们使用蠕虫 )对我们的监控服务器进行HTTP检查,以确保它已经启动并可以连接到Internet。 这是监测它的主要关注点。 然后我们的Nagios服务器监控我们所有的客户端Nagios服务器。
但是,你提出一个好点。 我们可能应该添加一个HTTP URL来检查postfix队列,如果它显示出exception数量的消息,这可能意味着它在队列中有任何消息,然后引发一个警报。 另一个select是使用不同的警报方法,比如我们目前使用的非SMTP SMS传送代理和SMTP。
在我们的情况下,我不记得我们曾经有过邮件服务器死亡。 当然,所有的邮件服务器都是用来发送Nagios警报的,所以configuration非常简单,几乎不会改变。
显然你的后缀也应该被监视,但那是另外一个话题;)
我使用Firefox的Nagios checker插件 ,它总是在我经常使用的任何计算机上的状态栏中运行。
另外,我有一个外部主机上的自定义脚本,ping nagios主机,如果它没有响应ping,则发送短信。
到目前为止(5年以上)它工作得很好(敲木头)。
对于监控服务器监控(在我们的情况下是nagios),Pingdom或alertfox的免费或基本的计划工作很好。
首先,让它每天发送一次或两次“我还活着”的消息。 其次,为了这个目的,我运行了一台老机器,它有另一个GSM调制解调器,一个小型的UPS等等,以及到主监视服务器的专用(直接)连接。 这也有助于第三点:确保定期检查监控系统的状态。 小型辅助监控系统一直显示我办公室主系统的状态页面。
如果您的监控服务器可以从互联网访问,您应该由外部提供商监控(例如websitepulse等)。