Nagios最佳实践

我在我的networking上安装了Nagios,并且有一些初学者的问题。

我想获得关于以下types的服务器的一些“最佳实践”信息:

  • networking服务器
  • Exchange Server
  • 数据库服务器

从上面的列表中,我想知道应该监视的资源。 例如,什么是首选的检查来监视交换服务器,我最初想到这些:

  • 磁盘空间(C 🙂
  • CPU负载(%)
  • 内存使用情况 (%)

我想编译这些列表,以便当我添加一个新的服务器到我的networking时,我知道我应该添加什么检查(本质上是一组模板),取决于服务器types。

为了进一步澄清,我不是问如何configurationNagios,但是我应该为不同types的服务器select哪些最佳实践和典型检查。

我有一些烦恼你,但我想你正在寻找一个示例设置。

维基百科(维基百科)有一个公共的Nagios服务器,听起来像是你所需要的。 看看这里: http : //nagios.wikimedia.org/

您正在寻找主机组。 可扩展的nagios部署或至less一个密钥的关键是不要将服务检查直接映射到主机或主机列表。 相反,创build主机组并将主机添加到这些主机组,然后将服务检查分配给这些主机组。 这意味着添加一个新的服务器非常容易。 这是一个例子。

define hostgroup { hostgroup_name mogile-servers alias Mogile Servers members adrock,mca,miked } define service { hostgroup mogile-servers use he-generic-service service_description MOGSTORED_RSS contact_groups sms check_command check_remote_procs_rss!10485760!12582912!mogstored } 

请注意,还有几个分配给mogile-server主机组的服务。

现在,如果我需要添加另一个mogile服务器,我只需将它添加到mogile-servers主机组,并将在该新主机上检查所有服务。 简单。

如果您强迫自己考虑将服务映射到上面的主机组,您将会节省很多心痛和前进的configuration。

在你上面的例子中,你可以创build如下的东西:

 define hostgroup { hostgroup_name exchange-servers alias Exchange Servers members pdc-host, sdc-host, tdc-host } define service { hostgroup exchange-servers use he-generic-service service_description EXCHANGE contact_groups sms check_command check_exchange } 

有一点要注意的是:

需要定期保pipe

如果Nagios提供的监控服务出现故障,您将如何知道a)您的服务是否正常,或b)您的监控服务已经丢失,实际上情况正在崩溃。

因此,我总是build议有两个 Nagios主机。

  • 第一个configuration为监视您的所有服务。
  • 第二个configuration为监视另一个Nagios服务 – 理想情况下,这应该在不同的位置,以便可以检测到完整的站点故障。

他们都应该configuration为能够发送通知,第二个也应该configuration,以便它不依赖于在第一个位置的任何服务。