来自Nagios服务器的消息

Nagios服务器正在监视托pipeWindows Sharepoint的服务器。

我从Nagios服务器收到以下两个警报

1.服务:C:\驱动器空间

状态:关键

附加信息:

CRITICAL – 10秒后套接字超时

2.服务:CPU负载

状态:关键

附加信息:

CRITICAL – 10秒后套接字超时

我从这些推断出什么?

检查无法联系它用来监视您的服务器的networking服务。 我希望它是WMI或NSClient。 你没有说主机坏了,所以我认为nagios可以ping主机。 如果服务没有运行,你会得到一个拒绝连接的消息,但是你得到套接字超时,这意味着在一定的时间内没有build立连接。 鉴于你可以ping机器,并且你不能到达sockets,我会说有可能是防火墙的方式。

需要更多信息,例如:

  • 如果你总是得到这些,或者是间歇性的。
  • Nagios和主机之间的networking是什么样的?
  • 它是在工作之前,还是刚刚开始?

也就是说,如果间歇性地获取这些信息,可能意味着Nagios服务器,被检查的服务器或者networking负载非常高,不能及时响应,除了其他人所说的话。

甚至可能是知识产权冲突。

您也可以尝试增加nagios.cfg中的全局超时和/或特定插件(通常是-t开关)的超时。

作为第一步确保检查命令可以在本地运行,然后尝试从远程手动运行它们(全部在文档中介绍)。 根据结果​​,您可能需要确保Windows防火墙已打开适当的端口,并允许Nagios计算机连接到Windows主机。 对于这个价值来说,这两张支票通常都是非常快的,所以他们不应该超时。

每当我看到这样的警报时,通常意味着服务器代理没有运行,或者被阻止正确响应检查命令。

您发布的示例都是主动检查(需要在服务器上安装代理),而不是仅仅执行HTTP请求或ping的被动检查,因此请确保代理正在运行; NSClient将在目标机器上的服务控制pipe理器中将自己报告为“Nagios Agent”,而NSClient ++将自己称为NSClientpp。

如果此服务在以前工作,则可能是networking间歇性故障。

在工作中,它有助于我们发现我们的异地数据中心存在一些不稳定的访问问题。

因为你没有给出足够的有关如何configuration这些服务检查的信息,我会冒险猜测你使用SNMP或NRPE。

如果您使用的是NRPE,我强烈build议将其删除,因为过去我一直没有任何问题,并且使pipe理成为一场噩梦,因为您必须在更改所有服务器时更新所有服务器上的插件一个问题。

另一方面,如果您使用SNMP来监视CPU负载和驱动器空间,则看起来您的SNMP进程正在响应问题。 从个人的经验,我不得不问,机器是否大量使用? 我曾经在MS Windows中看到过这种行为,因为在高利用率情况下,它会使SNMP进程的优先级降低,因此SNMP检查开始失败,并出现超时问题。 如果这从来没有起作用,那么我会检查以确保您使用的是正确的SNMP社区string,或者如果您正在使用基于IP的身份validation,则允许在机器上的SNMPconfiguration中正确访问轮询器的IP。

再次不知道它是如何configuration的,这使得真的很难给出更详细的帮助。

同意以上的一切。 我唯一要确定的是检查是否在检查时启用了SSL(这将导致严重的后果),反之亦然,如果您要求启用SSL的话。

如前所述,查看本地configuration(nsclient.ini或nrpe.cfg),找出您要连接的端口。 然后从远程机器运行一个telnet,看看你是否能够到达它。

如果这是一个间歇性的问题,也就是说,你只能得到这些警告,然后没有警告等,但是服务器和服务工作正常,最有可能是同样的问题,因为插件超时有点短(有些情况下可能低至10秒)。

答案是查阅你使用的插件的文档,看看你是否可以在那里延长超时,然后修改你的commands.cfg文件或每个服务器的configuration,这样就增加了每次检查的超时时间。

希望这可以帮助 :)

短剑的一种