Articles of 系统监控

Nagios电子邮件通知中的完整状态信息?

我build立了Nagios来监视我的服务器,并且写了一些检查。 当我收到通知邮件时,我只能得到状态信息的第一行,而且我必须使用Web界面来查看其余部分。 是否有可能在电子邮件中获得完整的状态信息? 我将如何configuration?

间歇性的munin-cron错误“这里没有什么可做的,因为没有任何插件的节点”

我们在我们的一台服务器上安装了munin监控。 一般来说,它似乎运作良好,但有时,在2个月内4次确切,munin-cron产生了以下错误: [致命]这里没有什么可做的,因为没有任何插件的节点。 请参阅http://munin-monitoring.org/wiki/FAQ_no_graphs在/ usr / share / munin / munin-html第38行 在寻找这个错误时,我只能find一些问题,在这个问题上,慕尼黑根本就不工作,而不是我们面临的间歇性问题。 一些有助于防止这个错误或如何debugging,将不胜感激。 我们正在运行CentOS 5.5,使用yum安装了Munin 1.4.5。

在可用性期间开始时Nagios OK通知

我正在监视一个应用程序,该应用程序在工作时间之前开始,并在一天结束时使用Nagios 4.3closures。 我已经configuration了通知期,以便在应用程序启动后3分钟启动。 如果Nagios在通知期间开始时发现应用程序状态良好,我希望Nagios发送OK警报。 你会如何build议这样做? 另外,我希望收到一个通知,说明Nagios本身在通知期间开始时仍然活着,所以我知道它正在监视我的应用程序,并能够在出现任何问题时发出警报。 请注意,在工作日开始时,应用程序的“确定”状态将是最近的,因此解决scheme可以利用这一事实(例如,通知前5分钟内的更改)。

Green-IT:您如何处理系统监控中的poweroff系统?

你们中许多人可能已经完成或正在考虑绿色IT项目,目标是在计算机资源需求低时closures空闲或不需要的系统: 您在系统监控中如何处理这种情况? 我对Nagios的解决scheme特别感兴趣。 一个想法是在Nagios中为关机主机安排停机时间。 但是,这种解决scheme的缺点是主机仍然会列在Nagios Web界面的“问题”视图中。 如果没有这种“污染”,是否有更好的解决scheme(即“问题”观点只显示需要系统pipe理员维护的实际问题 )。 一个干净的解决scheme将是一个新的“绿色ITclosures”东道国。 但AFAIK这不存在,是吗? 你有其他build议或解决scheme吗? 监控dynamicIT环境的最佳方式是什么?

16TB卷和SNMP在Windows上

当大于16TB的卷变得越来越普遍时,人们认识到用于在SNMP中的标准“HOST-RESOURCES”MIB中报告磁盘大小和使用的32位值不足以报告正确的磁盘大小。 Net-SNMP似乎通过简单地操作“AllocationUnits”的值来维护磁盘利用率的32位值(因为总的磁盘大小/使用等于32位空间值乘以分配单位)来解决这个问题,以允许用于计算大于8 / 16TB的音量。 假设你在分配单元中没有任何报告兴趣,并且可能存在一小部分的不准确性。 这似乎是一个优雅的解决scheme。 https://bugzilla.redhat.com/show_bug.cgi?id=654384 然而,内置SNMP服务的Window似乎仍然受到这个错误的困扰,只是简单地报告了使用/分配的磁盘空间的模数,导致磁盘大小报告不准确。 有没有办法让Windows正确报告16TB以上卷的磁盘使用情况? 我们试图简单地安装Net-SNMP 5.5 x64并完全禁用Windows SNMP服务,但是这不幸的是没有解决我们的问题。 当使用NetSNMP扩展时,我们为我们感兴趣的特定磁盘收集的信息如下: 无论我们是使用vanilla Windows SNMP服务还是使用NetSNMP,这些结果都是相同的。 我已经看到Cacti社区的人们提到了简单的脚本解决scheme。 不幸的是,我们正在使用Observium进行快速和基本的系统监控。 如果这个问题不能在窗口方面纠正,Observium是否可以报告自定义的MIB? – 更新 – 查看bug报告中提到的将“realStorageUnits”添加到snmpd.conf文件中,设置该指令时遇到以下问题: – 更新2 – 那么,经过多less修补之后,它看起来不像Net-SNMP的任何Windows版本,如“realStorageUnits”指令。 启动SNMP时,包括指令的结果将会出现警告。 我们尝试了版本5.5,5.6和5.7。 有没有人曾经想过如何让SNMP在Windows上报告16+ TB的卷?

找出哪个进程正在改变一个文件

我试图find一种可靠的方式来find我的机器上的哪个进程正在改变一个configuration文件( /etc/hosts是特定的)。 我知道我可以使用lsof /etc/hosts来找出当前有哪些进程打开了这个文件,但是这并没有帮助,因为这个进程显然是打开文件,写入文件,然后再closures文件。 我也看了lsof的重复选项(-r),但似乎只有一秒钟一样快,这可能永远不会捕获进行中的写入。 我知道有几个工具可以监视文件系统的变化,但是在这种情况下,我想知道哪个进程是负责任的,这意味着要在动作中捕捉进程。