我期待为基于java服务器的应用程序设置监视和警报,并希望find一些监视JVM特定指标的最佳实践,并根据这些指标devise警报。 那么,关键的JVM度量指标是什么? 一些可能的竞争者: 使用堆空间 CPU使用率 GC频率 花在GC上的时间 线程数 class级数量 对象数量 一旦你开始看一些指标,那么这个指标有什么好的提醒策略? CPU使用看起来很容易,但像堆空间似乎很好监视和能够查看,但它不能很好地转化为一个可警告的指标,因为你期望它会增长到容量,触发GC。 但是像在GC上花费的时间,特别是作为一个整体时间的比例,似乎有很好的预警潜力。 我并不是在寻找一种工具(即Hyperic或Nagios)来执行监控,但是如果有一个具有特别好的Java模板/默认图/规则集的工具,那将是一个方便的指针。
我们在我们的开发环境中,在一个Windows平台上运行SOLR,在一个Linq平台上进行生产。 我们想监测SOLR指数。 我们目前有Microsoft MOM(我认为这个版本已经在新版本中被重新命名了)来监控我们的环境,如果监控解决scheme可以与MOM集成
我正在debugging允许远程作业提交的Linux应用程序,将每个作业的输出logging到一个新文件中。 日志文件path符合: /joblogs/job_*/JOB.LOG 通配符表示唯一的工作号码。 我希望能够拖曳每个作业日志,包括在发出tail(或其他)命令后创build的新日志。 我以为我可以使用multitail做到这一点,但我无法找出正确的使用参数集。 例如, multitail -q 1 "/joblogs/job_*/JOB.LOG" 似乎为每个新的日志文件创build一个窗口只是我想要的方式,但它不显示文件窗口中的任何输出。 任何人都知道如何使用multitail或其他Linux工具来做到这一点?
是否有任何体面的开源Web服务器监控应用程序的IIS? 一个体面的东西可以跟踪例如: 活动/吞吐量 响应时间 CPU使用率 内存使用情况 磁盘使用情况 任何其他有用的统计资料 我search了code.google,codeplex等,到目前为止还没有发现。
我想监视使用Nagios的几百台主机,但是我只想让交换结构显示在statusmap.cgi中。 有没有办法阻止主机在状态图中显示出来,但还是要监视它?
我们的Subversion服务器经过几个小时的工作后,会消耗100%的CPU。 重新启动仅解决问题几个小时。 在这种情况下提交和结帐将非常缓慢。 我怎样才能find问题的原因并解决。 有没有一个监视器显示运行命令和哪个客户端生成它?
谷歌search2天没有解决scheme后,我想知道是否有人使用Graphite与CollectD或StatsD在仪表板中包含MongoDB统计。 我希望有一个最新的插件与CollectD一起使用,但是我只find了一个过时的未完成的插件 ,几乎最终使用statsy创build了自己的StatsD帮手。 然而,我不能相信有没有经过考验的方式来获取db.serverStatus()的输出到一个Graphite仪表板。 我想在我现有的Node.js,Nginx和系统状态旁边显示MongoDB数据,这是我为什么希望保留当前的堆栈而不移动到任何其他监视工具。 从Munin来说,MongoDB集成是非常繁琐的。 任何build议可以使用哪些工具? 我很想避免为数据库创build我自己的StatsD客户端。 更新我发现一个有趣的Python脚本,可能是有用的: https : //gist.github.com/thpham/9060170
我目前的雇主正计划在Linux和Solaris服务器上推出System Center代理。 我不是在这里辩论为什么我不是这个想法的粉丝,这场战斗已经被打败了(不是真正的战斗,简单的pipe理法令,无法辩论)。 但是,我想知道的是,如果有人有将代理部署到Linux和/或Solaris服务器的经验, 你介意分享你的经验吗? 是否有任何问题或陷阱寻找等? 非常感谢!
有没有可能使用Cacti让它给你一个符合一定标准的机器清单? 例如,在过去一周内,平均CPU负载超过50%的机器是什么? 什么机器有5%的可用磁盘空间? 等等 我没有find任何合适的插件,有谁知道任何可以执行此任务的东西?
在向我的Cacti实例添加新设备时,在设备屏幕中出现频繁的“SNMP错误”消息。 但是错误并不一致,即使是同一个设备也是如此。 这是我已经检查: 有时候,即使设备在一个小时之前没有发生错误,设备也会显示“SNMP错误”消息,反之亦然。 我尝试了几种不同的Cacti版本,安装在不同的操作系统上(Debian squeeze:0.8.7g-1 + squeeze1,Debian Sid:0.8.7i-3,CentOS 6.0:0.8.7i-2.el6) 尝试从本地(192.168.1.xy)networking和从不同的数据中心,所以我不认为这是一个networking问题 重新安装了Cacti数据库,重新运行脚本来安装我的设备。 现在不同的设备有这个错误 当从命令行执行snmpwalk或snmpgetnext命令时,它总是成功的 将超时时间增加到20000(20秒),重试计数到10没有什么区别 cacti.log说: 04/14/2012 02:10:19 PM – CMDPHP: Poller[0] WARNING: SNMP GetNext Timeout for Host:'s0026.mydomain.de', and OID:'.1.3.6.1.2.1.1.3.0' 04/14/2012 02:10:20 PM – CMDPHP: Poller[0] WARNING: SNMP GetNext Timeout for Host:'s0026.mydomain.de', and OID:'.1.3' 但是,从命令行执行snmpget或snmpget时,会立即返回正确的响应。