Articles of 监视

内存使用率很高,但没有被任何进程声明?

在我们的Debian服务器上对LVM进行压力testing的时候,我遇到了这个问题,内存会占用大量内存,但是没有任何进程需要内存。 请参阅http://i.imgur.com/cLn5ZHS.png ,并参阅https://serverfault.com/a/449102/125894了解htop中使用的颜色。 为什么发生这种情况? 有没有什么办法可以看到什么进程正在使用内存? Htopconfiguration为不隐藏任何进程,那么htop缺失的是什么? 在这个特殊情况下,我可以肯定地说,这是由lvmcreate,lvmremove或dmsetup直接或间接造成的,因为我正在进行压力testing。 请注意,这个问题不是解决LVM问题,而是解释为什么内存不被任何进程所要求。 停止所有LVM命令确实将内存降低到<600MB。 free -m输出: total used free shared buffers cached Mem: 32153 31958 194 0 52 3830 -/+ buffers/cache: 28075 4077 Swap: 975 0 975 顶部,由于它的长度在pastebin的输出: http : //pastebin.com/WchrpF7W

Nagios:如何将大量通知汇总到一个电子邮件通知中?

我有一个监视许多服务器的Nagios服务器。 有一个内部编码的仪表板,它使用被动检查将监控数据发送到Nagios服务器。 每当有问题发生时,NOC团队就会收到电子邮件通知。 我的目标是: 当问题发生时,即使仪表板向Nagios发送100封通知电子邮件,我也希望Nagios将通知汇总到一个通知中。 那么我希望Nagios在问题解决之后再发送一个通知。 它是如何完成的?

监视并绘制每个进程和每个线程的CPU使用情况

我需要监视给定进程及其每个线程的CPU使用情况。 对于他们每个人我想要: 平均和最大CPU使用率, 捕获期间使用的总CPU时间, CPU使用率随时间变化的graphics, 以上所有的用户和系统模式分开。 我发现了一些sysstat / sar,collectd,munin,naggios的引用,但我不确定他们是否有我需要的function。 系统是Ubuntu Hardy。

实时IIS监控

我们正在寻找一些监控软件来报告和显示IIS的实时性能信息。 我们正在使用perfmon来监视请求执行,请求排队等,但是我们正在寻找一个能够生成报告,图表等的永久解决scheme。 Nagios似乎得到了很多赞誉,但是我们正在寻找一些我们可以在Windows上安装的东西。 我偶然发现Nimsoft ,但想知道是否有其他的select? 我们只希望监视我们的networking服务器(less于5台机器)。

程序快照在安装过程中所做的更改?

题 有没有一个体面的价格(免费首选)工具,可以让我看到在安装过程中对系统(磁盘,registry等)进行的所有更改? 背景 我想捕获软件安装所做的更改,以便我可以将它们转发给安全团队,安全团队可以对这些操作进行白名单和授权。 目前,如果安装对用户的文档文件夹进行了更改或者添加了registry项,那么我们没有一个很好的方法来提取它。 而且我知道一定有更好的办法。 在此先感谢您的帮助!

HP ProLiant Gen8运行状况代理和EL6.x – cpqHoMibHealthStatusArray已更改为值:x

我注意到,HP ProLiant Gen8服务器在重新启动时,通过电子邮件向root(或在/opt/hp/hp-snmp-agents/cma.confconfiguration的目标)报告以下消息。 Trap-ID=11020 cpqHoMibHealthStatusArray has changed to the value :02 03 02 02 02 02 02 03 02 02 02 02 02 01 01 02 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 […]

Sensu替代(?)在服务器上定义警报阈值(不受监控的客户端)

问题/ TLDR; 是否有Sensu-alternative(即基于RabbitMQ的操作系统监控代理/服务器),在中央监控服务器上定义其警报阈值,而不是在受监视的客户机服务器上(如Sensu和Nagios)? RabbitMQ是必需的,所以没有Zabbix等人,恐怕。 背景: 我有一个很大的环境(Windows和RHEL),我无法安装编排工具(Puppet等),因此安装的服务应该保持在最低限度。 我正在研究是否可以开发一个收集系统信息的单一代理,将日志传递到Logstash并报告资源消耗情况。 它将所有这些值推送到RabbitMQ,然后Logstash可以订阅日志,监视服务可以订阅资源度量(并从中创build警报),CMDB系统可以订阅系统信息等。 但是,我只想接收关于资源消耗的信息并在监视服务器上创build警报,而不必更改每个服务器上的阈值以更改警报阈值。 我不能是唯一的人find这样的代理人有用… 澄清: 如果Sensu监控下的服务器磁盘空间不足,则Sensu代理会检查磁盘空间,并将其与服务器上定义的CRITICAL阈值进行比较,如果超过阈值,则通过RabbitMQ发送CRITICAL报警至中央监控服务器。 要更改没有Puppet或其他门槛,login到服务器是必需的(对吧?) 我想这样做的方式是,当监视代理程序检查其磁盘空间时,它只是通过RabbitMQ发送可用磁盘(或使用的磁盘和总等)的数量到中央服务器,然后将该值与阈值进行比较在中央服务器上定义,并在必要时发送警报。 如果需要更改阈值,则在中央服务器上更改该阈值,或者可以比较多个服务器中的多个值来创build警报。 虽然我理解与Nagios兼容的决定,但这是Sensu的主要问题。 如果不需要中央服务器 – >受监视的服务器通信,那也是可取的。 我认为可以在中央服务器向代理发送阈值的情况下做出一个混合,然后将代理运行为“本地”。 环境networking使得这个特别棘手。 感谢任何人可能有的想法!

Nagios hostgroup_name排除项中的通配符

我很难在Nagios中find通配符和正则expression式的良好文档(特别是在排除条件下)。 这是我正在尝试做的一个例子: 在nagios.cfg ,设置了以下内容,据说可以启用*和? 作为通配符: use_regexp_matching=1 use_true_regexp_matching=0 在services.cfg ,我们有一个服务,我们想要适用于除了一些对象之外的所有对象; 那就是所有的Linux主机,而不是负载均衡器。 显式排除工作: define service { use generic-service service_description Puppet check hostgroup_name prod, staging, !prod-site_a-lbs check_command check_puppet_alive_nrpe } 但是,我们有许多站点,每个站点都有自己的主机组中的负载均衡器(因此可以通过站点轻松pipe理通知)。 而不是有一个很长的列表!prod-site_a-lbs , !staging-site_a-lbs , !prod-site_b-lbs 。 我希望能够将hostgroup_name行修改为: hostgroup_name prod, staging, !*-lbs 我已经尝试过了,尽pipe我们没有收到任何错误,但是此服务检查仍在应用于我们的负载平衡器。 为了仔细检查,我也尝试过: hostgroup_name prod, staging, !.*-lbs 但是,如预期的那样(因为没有设置use_true_regexp_matching ),这会失败,在运行checkconfig-noprecache : Error: Could not find any hostgroup matching '!.*lbs' […]

分布式服务器监控解决scheme

我属于一家独立的IT公司,pipe理和维护约50个商业客户networking,范围从小型5个系统networking到200多个系统。 由于我们无法直接监控这些地点的每台服务器(分布在一个非常大的区域),所以我正在寻找一种方法来监视并提醒我们可能出现的任何问题,以便我们能够快速响应,希望,预防措施。 我不确定哪种解决scheme可用于这种情况,但利用我们业务中的中央服务器,所有客户端服务器发送警报或日志以进行日常监控可能效果最佳。 所有这些服务器都运行Windows Server操作系统。 在你看来,完成这个最好的行动是什么?

使用zabbix监视vmware数据存储

目前的vmware基础架构是ESX和ESXi在3,3.5和4.1版本的混合。 我想实现的是能够通过zabbix监视数据存储的空闲空间,这是我们当前的监视解决scheme。 有没有办法实现这一点?