我正在寻找在我的两个Web服务器上的一些可读文件(pipe?),它显示了负载平衡中使用的最less负载的mysql服务器的id以及其他一些应用程序。 我也希望它是实时的,而不仅仅是通过cron job经常更新的东西。 我应该从哪里开始?
我们有一个定制的Debain OS服务器与这个突袭卡 。 有什么我们可以从操作系统端来监视RAID的虚拟磁盘? 几个星期前,我们有一个raid降级,直到重新启动才知道。
我已经在这个网站上阅读了几个有关监控服务器的QA,但是我发现,他们没有一个集中我想观看的所有日志。 为了描述我的情况: 10个Linux主机 使用logwatch来监视 阿帕奇 Nginx的 后缀/鸽子 MariaDB / MySQL 的fail2ban SSHD validation日志/ PAM 磁盘空间 ClamAV的 过虑 一般syslog监视 使用mysqlreport监视configuration和资源使用情况 Debsecan可以监视已安装软件包的CVE 日志logging并不总是集中式的,因为我提供了apache虚拟主机(如其中的100个),并且每个在chrooted环境中都使用单独的日志logging目录。 有没有集中的解决scheme来收集这些信息,并提供自定义规则的网页界面(优先日志分析结果)和可能的电子邮件通知? 我试图平息这种情况,我必须每天手动抓取30到100封电子邮件,这实际上是不切实际的,而且不是很可扩展的。 我每天想要查找和解决的问题有三种:资源使用(configuration服务,配额,networking带宽…),应用程序级别问题(错误configuration,段错误,权限问题)和安全问题(已知CVE,利用模式识别,…)
在Nagios Core中,可以通过Web界面closures特定服务或主机的通知。 这是一个简单的Web请求,我们也可以在命令行脚本/工具中构build。 如果需要closures手动重新启动的主机,更新服务或通过自动化脚本重新部署代码等情况,则此CGI连接器非常适用。 最近,我们一直在考虑移植到Icinga 2.从它的Web界面(正确命名Icinga Web),可以做同样的事情。 只有一个问题, 由于Icinga具有CSRF缓解function,因此通过模拟Icinga Web请求,不可能以一种简单的方式来做到这一点。 有没有办法通过某种types的API(REST或其他)? 到目前为止,我的search没有什么比旧的CGI接口的规范,这似乎没有提供新的Icinga Web,参考: http ://docs.icinga.org/latest/en/extcommands2 。 HTML 编辑 :实际上仔细阅读提供的链接后,我注意到这提供了一个命令文件,允许命令插入作为基于行的媒体。 这仍然给我们提出了一些问题,虽然(并发是其中之一)。
我的仙人掌停止绘制使用snmp监视的服务器的networking数据。 我能够使用snmpget手动查询相应的计数器 $ snmpget -v 2c -c XXX XXX .1.3.6.1.2.1.31.1.1.1.6.4 iso.3.6.1.2.1.31.1.1.1.6.4 = Counter64: 13662736603625 但是,计数器不会增加,直到我重新启动服务器上的snmpd。 在服务器的系统日志中,我注意到了这些行: Jun 17 16:25:33 ns375911 snmpd[18307]: Cannot statfs /sys/kernel/security#012: Permission denied Jun 17 16:25:33 ns375911 snmpd[18307]: message repeated 17 times: [ Cannot statfs /sys/kernel/security#012: Permission denied] 这个问题似乎只影响我在某个date之后安装的服务器(大约在2015年5月左右) 我有Ubuntu 14.04.2 LTS。 任何人都可以解释这里发生了什么,我该如何解决? 我认为这个错误会导致snmp中止并阻止它更新networking接口统计信息。 我可以configurationsnmp来忽略这个sys文件夹吗? 还是给它权限?
最近我遇到了这样的情况,当“标准”磁盘空间监视失败时 – Zabbix使用vfs.fs.size项来检查磁盘使用情况,这在配套的模板中进行了logging和预configuration。 问题: 当文件被删除,但文件描述符/句柄仍然是打开的 – 磁盘可能会被填满,但在这种情况下Zabbix将报告没有用法。 在这种情况下,如何监视磁盘空间?
Monit报告的内存使用量非常低,与实际使用情况不一致。 如果我看Monit,在系统下我看到“5.7%[918.0 MB]”,虽然真实情况是非常不同的; total used free shared buffers cached Mem: 15947 14755 1191 1495 889 11508 -/+ buffers/cache: 2357 13590 Swap: 8191 113 8078 内存使用量实际上在90%和14.7GB左右。 它报告“5.0%[799.1 MB]”的PHP-FPM的使用率很低。 不知道我能做些什么来使其报告正确的使用? 请注意,我的数据库服务器正确报告“83.4%[13.0 GB]”。 编辑 刚在发行说明中注意到这一点, “修正:在超过4GB内存的32位平台上,Monit会报告不正确的系统和交换内存值(Monit 5.16中的回归)”。 去升级,看看它是否修复它。 编辑2 已经升级到监视5.17.1,问题依然存在。
我想了解是什么导致我的服务器上这些例行高CPU负载。 服务器正在使用serverpilot上的一个小的数字海洋液滴,舒适地运行几个WordPress的网站,stream量很低。 在过去的两个星期里,我看到(同一个星期五)一个过程,触发以下新的遗迹警报CPU> 80%。 我非常担心,这是一个恶意PHP脚本发送邮件或类似的烦人。 我怎样才能缩小造成这个问题的原因,并防止这个问题呢?
我在Ubuntu上有一个监视许多其他Ubuntu服务器的nagios服务器。 他们已经configuration了厨师,他们正在正确地监控NRPE的事情(即NRPE检查工作,当事情中断时,我得到一个警报)。 一切安好。 除了我监控的主机上的syslog有很多这样的错误信息: Jul 20 15:07:10 HOSTNAME nrpe[26360]: Error: Could not complete SSL handshake. 5 每5分钟左右,系统日志将会得到另一个这样的消息。 没有失败的testing。 我有大约20个受监视的主机,他们在系统日志里都有类似的东西。 更新: nagios服务器的IP地址在allowed_hosts列出,并且已经很长时间了。 我怎样才能阻止这个消息从打印到系统日志?
我目前正在与Shinkenbuild立监控的过程。 对于一些检查,我使用webservice模块来接收传入的状态更新。 但是,如果上次更新正常,然后设备/链接以阻止进一步更新的方式失败,会发生什么情况? 我的问题是 – 是否有任何方法来自动设置警告状态时更新没有收到设定的时间,如60秒?