Articles of 监视

是否有一个监控软件套件在一段时间内没有收到任何活动时会提醒我?

这可能是一个非常基本的问题,但是我不太了解Nagios与Munin对比其他监控工具的确切function。 假设我们有一个stream程需要每天运行一些非常重要的基础设施的原因。 我们曾经有过这样的情况:在没有任何人注意到的情况下,这个过程没有运行,或者在其他情况下停止了数天 我想build立一个系统,使我可以很容易地知道什么时候没有发生日常运行的原因。 我可以设置这个过程,在每次成功运行(或每次失败的运行)时发送一封电子邮件,但我不相信接收此邮件的人会注意到没有 “我很好”的消息。 我所设想的是某种types的“tripwire”服务,这个VIP(非常重要的进程)可以在每次运行时发送状态消息,无论是否成功; 如果“tripwire”服务在可configuration的时间内没有收到来自VIP的任何单词,则可以向某人发送警报。 (我所设想的和我所描述的第一种方法之间的区别是只在exception情况下发送消息的服务,而不是每天发送状态为正常/正常的消息的服务)。 如果在N天内没有收到某个服务/设备/进程的回应,是否可以设置Nagios来发送类似的警报? 有没有另外一个工具有这个function?

IIS 6 – 应用程序池上的CPU限制

因此,在最近发生的一次DDoS攻击之后,我们的一个站点将该服务器上的所有站点都closures,我开始考虑如何阻止这种情况在所有站点上产生这样的影响。 如果DDoS下的网站出现故障,我可以通过其他方式处理。 这是我担心的其他网站。 我可以使用“最大使用的内存”设置轻松处理内存使用情况,这一切都很好。 但是对于CPU使用率来说,这似乎并不那么简单。 到目前为止,我的方法是使用以下设置的CPU监视: 最大CPU使用率(百分比) – 60 刷新CPU使用率数字(以分钟为单位) – 5 已执行的操作 – 关机 有了这些设置(当运行一个锤击CPU的testing时),大约90秒(不知道为什么它的90秒?!)的CPU使用率超过60%,该工作进程发生以下情况: 事件日志中的消息“应用程序池”TestAppPool“超出了其作业限制设置” 大约10秒钟后,应用程序池停止。 大约5分钟(“刷新CPU使用率”设置)稍后会自动重新启动。 这不是很好,因为如果它持续的DDoS攻击,5分钟后应用程序池将再次受到攻击。 从本质上讲,我想要达到的目标是一个网站被打击并不会打断服务器上的其他人,我甚至不介意在防火墙/networking层面纠正问题之前是否永久停止。 理想情况下,我并不想使用请求队列限制,就像我以前发现的那样,随着多个站点上的stream量波动,这可能是一个噩梦来pipe理。 我是否以错误的方式去做这件事? 像PLESK或其他共享主机环境的系统如何处理这样的事情? 干杯!!!

如何监视和测量用作服务器存储的Compact Flash卡的健康状况?

上下文 该公司出售一种收银机networking应用程序。 通过VPN提供对应用程序的访问。 客户端的VPN入口点是运行Voyage Linux(Debian的精简版)的Soekris板。 这些主板已经运行了3年的MySQL,具有复制和RoR应用程序堆栈。 这些主板的存储支持是Compact Flash 4GB卡。 问题 我们正在这些板上发生常规错误和随机应用程序崩溃。 最常见的错误如下: Aug 24 14:54:44 box45 puppetd ​​[3669]:无法运行Puppet :: Network :: Client :: Master:过时的NFS文件句柄 – /var/lib/puppet/state/state.yaml 8月24日13:37:01 box76内核:[2091.575622] EXT2-fs错误(设备hda1):read_block_bitmap:无法读取块位图 – block_group = 30,block_bitmap = 983040 如果这些是基于HDD的,我将运行SMART监视工具来检查坏扇区和一般磁盘健康状况。 除了因为是CF卡,我处于黑暗中,难以衡量情况有多糟糕(或好)。 我能做些什么来监控这些卡片的健康状况并衡量他们的健康状况? 我坚持“措施”,因为我需要给出一些事实,最终将激发所有CF卡的变化。 而为了让事情更复杂一点,我没有物理访问Soekris板,所以这一切都需要遥远。

Windows性能监视器不断尝试添加不需要的计数器

我一直在为SQL Server运行一个Data Collector Set一个星期,一切都很好,直到我尝试点击操作 – >保存当前视图,现在它总是试图自动添加以下计数器到我的报告: \\MYSERVER\Provedor de Dados .NET para SqlServer(sqllogship[1296])\NumberOfInactiveConnectionPools \\MYSERVER\Provedor de Dados .NET para SqlServer(sqllogship[1296])\NumberOfNonPooledConnections \\MYSERVER\Provedor de Dados .NET para SqlServer(sqllogship[1296])\NumberOfPooledConnections \\MYSERVER\Provedor de Dados .NET para SqlServer(sqllogship[1624])\NumberOfInactiveConnectionPools \\MYSERVER\Provedor de Dados .NET para SqlServer(sqllogship[1624])\NumberOfNonPooledConnections \\MYSERVER\Provedor de Dados .NET para SqlServer(sqllogship[1624])\NumberOfPooledConnections \\MYSERVER\Provedor de Dados .NET para SqlServer(sqllogship[1744])\NumberOfInactiveConnectionPools \\MYSERVER\Provedor de Dados .NET para SqlServer(sqllogship[1744])\NumberOfNonPooledConnections \\MYSERVER\Provedor […]

Windirstat相当于Linux服务器的守护进程?

是否有Linux的守护进程types的应用程序,在后台运行,定期维护文件系统的windirstattypes的图片? 理想情况下,它将拥有自己的Web界面,但是如果不是,我显然可以在PHP中一起攻击。 哦,它将不得不在超低IO优先级上运行。 我不想让自己的磁盘遭到破坏,因为害怕缩短自己的生命。

如何在linux中testing通过模式下的IP带宽?

我想在通过模式下测量IP带宽。 请find附件图片的configuration和我的问题也。 如果OpenWRT没有解决scheme,我需要任何替代解决scheme作为简单的Linux机箱。 如果有人能够提供程序来完成谈话,我将非常感激。 感谢提前的朋友。 我知道IPerf,但不能完全确定Iperf能够支持这个问题的程度,如果你能把它放在一些光明的…

Nagios如何处理基于非阈值的插件?

我正在编写一个Nagios插件来监视某个存储资源利用率的趋势(例如逐渐增加是好的,但资源使用量的瞬时/突然增加或减less可能表明存在问题)。 值得一提的是,它正在审查自定义cacti数据源/模板生成的RRD文件中的最后N个条目。 什么是“正确”的方式来处理Nagios的通知configuration/实现呢? 问题是这个插件会在一个投票期间作为警告/批评而退出,但是在下一个投票期间,如果我查看3个投票期的数据,那么这个插件会被罚款(或3个投票周期之后)。 我想这个问题是:我应该写一个X轮询周期的警报,或者我应该find一种方法来写它,以便手动干预来清除它(例如login到监视服务器或点击一个URL来运行提交被动结果的脚本)? 你的意见是赞赏,如果你有任何提示如何实施后者,我向他们开放(我可以想到几种方法来实现它) 编辑:下面的dunxd的“答案”帮助陈述我正在寻找更简洁。 我很现实地寻求在Nagios中实施/实施“粘性”警报的最佳方法。 我已经看到它与其他系统完成,但到目前为止还没有。

用monit监视错误率

有没有办法告诉monit在一定时间内在日志文件中是否有超过X个错误(例如,匹配“ERROR”的行)? 我的用例是:错误有时出现在我的日志文件(即networking错误,远程服务器打嗝等),他们并不重要。 但是,如果有一个高峰,我想要通知,因为这需要快速调查(例如,拙劣的部署,新引入的bug)。 理想情况下,我正在考虑类似的东西 check file myapplog with path /var/myapp.log every 2 cycles if lines matching "ERR" > 10% then alert 我想我可以通过写一个外部脚本,然后做类似的事情来得到这个 check program cer with path /usr/local/bin/checkerrorrate.sh if status != 0 then alert 但我想知道是否有更好的select。

如何有效地使用vmstat监视系统状态?

从vmstat命令获取实时内存统计信息。 我使用以下步骤做到了这一点: $ nohup vmstat 60 > vmstatrecord.app & 该命令在后台执行,并将日志写入文件vmstatrecord.app 。 当我看到使用该命令 $ ps -A | grep stat 我可以看到vmstat在后台运行,我也可以使用tail命令来访问日志: $ tail -f vmstatrecord.app 该文件每隔60秒更新一次。 现在我的问题是:进程继续写入文件,如果我离开几天会发生什么? 假设:如果进程永远写入文件, 恐怕文件大小可能变得太大 如果我的假设是正确的,我的步骤是低效的。 有没有其他办法可以实现我从上述步骤中想要实现的目标? 已经在这里问过

为什么snmptt没有翻译这个陷阱?

我有一个发送snmp v1陷阱的设备,snmptt无法翻译它们。 要抓取陷阱的副本,我停止了snmptt服务,并将陷阱复制到/ tmp。 我试图触发的OID是: .1.3.6.1.4.1.476.1.42.3.2.1.15 这是来自/var/spool/snmptt的原始陷阱: <UNKNOWN> UDP: [10.108.64.250]:4999->[170.6.78.54] .1.3.6.1.2.1.1.3.0 1:7:58:27.81 .1.3.6.1.6.3.1.1.4.1.0 .1.3.6.1.4.1.476.1.42.3.3.0.0.2 .1.3.6.1.4.1.476.1.42.3.2.3.1.1.19 19 .1.3.6.1.4.1.476.1.42.3.2.3.1.2.19 .1.3.6.1.4.1.476.1.42.3.2.1.15 .1.3.6.1.4.1.476.1.42.3.2.3.1.3.19 1:7:58:27.79 .1.3.6.1.6.3.18.1.3.0 10.108.64.250 .1.3.6.1.6.3.18.1.4.0 "public" .1.3.6.1.6.3.1.1.4.3.0 .1.3.6.1.4.1.476.1.42.3.3.0 以下是来自snmpttunknown.log的条目: Thu Jul 10 14:32:05 2014: Unknown trap (.1.3.6.1.4.1.476.1.42.3.3.0.0.2) received from 10.108.64.250 at: Value 0: 10.108.64.250 Value 1: 10.108.64.250 Value 2: 1:5:34:06.89 Value 3: .1.3.6.1.4.1.476.1.42.3.3.0.0.2 Value 4: 10.108.64.250 Value […]