Nagios最佳实践

我在我的networking上安装了Nagios，并且有一些初学者的问题。

我想获得关于以下types的服务器的一些“最佳实践”信息：

networking服务器
Exchange Server
数据库服务器

从上面的列表中，我想知道应该监视的资源。例如，什么是首选的检查来监视交换服务器，我最初想到这些：

磁盘空间（C 🙂
CPU负载（％）
内存使用情况（％）

我想编译这些列表，以便当我添加一个新的服务器到我的networking时，我知道我应该添加什么检查（本质上是一组模板），取决于服务器types。

为了进一步澄清，我不是问如何configurationNagios，但是我应该为不同types的服务器select哪些最佳实践和典型检查。

我有一些烦恼你，但我想你正在寻找一个示例设置。

维基百科（维基百科）有一个公共的Nagios服务器，听起来像是你所需要的。看看这里： http : //nagios.wikimedia.org/

您正在寻找主机组。可扩展的nagios部署或至less一个密钥的关键是不要将服务检查直接映射到主机或主机列表。相反，创build主机组并将主机添加到这些主机组，然后将服务检查分配给这些主机组。这意味着添加一个新的服务器非常容易。这是一个例子。

define hostgroup { hostgroup_name mogile-servers alias Mogile Servers members adrock,mca,miked } define service { hostgroup mogile-servers use he-generic-service service_description MOGSTORED_RSS contact_groups sms check_command check_remote_procs_rss!10485760!12582912!mogstored }

请注意，还有几个分配给mogile-server主机组的服务。

现在，如果我需要添加另一个mogile服务器，我只需将它添加到mogile-servers主机组，并将在该新主机上检查所有服务。简单。

如果您强迫自己考虑将服务映射到上面的主机组，您将会节省很多心痛和前进的configuration。

在你上面的例子中，你可以创build如下的东西：

 define hostgroup { hostgroup_name exchange-servers alias Exchange Servers members pdc-host, sdc-host, tdc-host } define service { hostgroup exchange-servers use he-generic-service service_description EXCHANGE contact_groups sms check_command check_exchange }

有一点要注意的是：

需要定期保pipe

如果Nagios提供的监控服务出现故障，您将如何知道a）您的服务是否正常，或b）您的监控服务已经丢失，实际上情况正在崩溃。

因此，我总是build议有两个 Nagios主机。

第一个configuration为监视您的所有服务。
第二个configuration为监视另一个Nagios服务 – 理想情况下，这应该在不同的位置，以便可以检测到完整的站点故障。

他们都应该configuration为能够发送通知，第二个也应该configuration，以便它不依赖于在第一个位置的任何服务。