Articles of 监视

JMX监控,无需牺牲和胳膊或腿

我有兴趣使用尽可能less的configuration来设置JMX监视。 在VisualVM或JConsole中,只需连接到JMX服务器即可显示大量指标。 我想存储这些(重要的),并设置一个警报,当他们跨越一个特定的门槛。 到目前为止,我已经看过OpenNMS,Nagios,Splunk和Zenoss。 他们中没有一个具有开箱体验。 在这一点上,我更感兴趣的是完成工作(我是一个在Ops里进行月光的开发人员) 编辑:开箱即用,不需要安装插件(如Splunk或Zabbix)。 没有笨重的configuration(如在OpenNMS中)。 有些东西,只是最小的努力工作,给你的JMX的url和密码和baaam!

什么是Apache httpd的实时请求监视器?

我已经使用SeeFusion监视ColdFusion请求。 有没有类似的工具,可以让我实时监控Apache httpd请求? 我们有一个服务器能够快速响应好几个月,但是今天突然使用的是80%cpu而不是1%,我不知道从哪里开始弄清楚什么是陷阱。

每晚备份(也可能是其他任务)导致服务器警报

我有两个独立的警报通知系统为我的服务器。 服务器是Linode上的虚拟机,其中一个警报来自Linode。 我们使用的另一个监控系统是New Relic。 他们都在关注IO利用率。 每天晚上,当服务器使用太多的IO时,我都会收到警报。 我在半夜执行了几项任务,但是我确认可能会导致IO警告正在运行备份。 备份由s3cmd sync完成。 我尝试了ionice,但它仍然产生警告。 每天晚上发出警告会降低警告发生时的效力。 对于Linode,我可以提高发出警告的水平,但是这可能意味着整个事情都是无用的,因为水平太高。 这将是什么适当的解决scheme?

数据收集集应在Windows Server性能监视中运行多长时间

我目前有一个应用程序服务器和数据库服务器都运行在Windows Server 2008 R2上。 我一直负责生成关于CPU,内存和磁盘利用率的每周报告。 我打算在Windows性能监视器中使用默认的“性能监视数据收集集模板”,并想知道调度作业的最佳做法是什么? 我希望数据收集从每周开始时开始,并在结束时停止。 这会是矫枉过正? 另外,性能监控是否会拖低系统性能? 我们的应用程序的使用很可能是非常不规则的。 许多批处理作业在晚上运行,用户在早上上class时可能会访问系统,所以我担心较小的采样窗口会错过真正的系统利用率。 另外,我find了一些设置数据收集的基本教程,但是在使用Windows性能监视进行每周绩效pipe理的最佳实践方面却遇到了一些问题。 如果有人有一个好的来源,请分享。

什么工具来识别高CPU的Tomcat线程?

我们有一个使用Tomcat 7的负载均衡的服务器群。偶尔(至less每天一次),服务器的CPU负载会急剧上升。 这似乎是合法的服务器使用情况,而不是一个错误,但我不知道如何确定什么特定的网站使用率造成这些CPU高峰。 以下是我们正在使用的工具: Javamelody,它显示长时间运行的电话,但不是当他们发生。 Zabbix,显示CPU使用率,但不是什么原因造成的。 服务器日志,通过pipe理指令,只显示线程,而不显示任何统计信息。 有什么方法可以把这些结合在一起,并找出什么线程正在运行的时间? 还是有更好的工具,我们需要使用?

简单的networking工具查看日志

我正在开发一个服务器部署脚本,安装一堆东西,并在过程中生成一个日志。 我希望脚本的用户能够实时查看网页上正在发生的事情(例如,不浏览器刷新)。 什么是简单的方法来做到这一点? 我试过log.io,但错过了“没有持久层”的部分。 像纳吉奥这样的工具太复杂了。 基本上我正在寻找的东西: sudo apt-get install -y logviewer nohup logviewer –port 1234 </var/log/mylog.log& 目标服务器是OpenStack上的Ubuntu。 日志主要由Salt Stack生成。

在超时之前Monit报告“未能停止”

我使用下面的语法通过monit启动和停止一个进程 : stop program = "…" with timeout 90 seconds 一切正常,除了Monit总是报告在一分钟后failed to stop : 从/var/log/monit.log : [EST Nov 11 11:04:09] info : 'myprocess' stop: /bin/su [EST Nov 11 11:05:09] error : 'myprocess' failed to stop [EST Nov 11 11:05:10] info : 'myprocess' stop action done 我显然希望等待90秒,而不是60秒。 我究竟做错了什么?

Nagios事件处理程序/命令不执行

我试图configuration我的Nagios设置,当主机停机(PING服务进入HARD CRITICAL状态)时,自动在我们的售票系统中logging一张票。 我有一个脚本,将创build与“sudo -u nagios”成功运行的票证。 我有一个命令和事件处理程序设置,执行主机状态失败时,或至less出现。 但是,与该命令关联的脚本似乎没有执行,或者我添加的日志logging不起作用。 任何想法在哪里看下? 日志文件不会在调用事件处理程序时创build。 命令: define command { command_name make-ticket command_line /etc/nagios/commands/make-ticket-wrapper "$SERVICESTATE$" "$SERVICESTATETYPE$" "$HOSTNAME" "$HOSTADDRESS$ "$HOSTSTATE" "$HOSTGROUPALIAS" "$SERVICEDESC" } 示例主机和服务 define host { use generic-switch host_name test alias test address 192.168.100.13 } define service { use generic-service host_name test service_description PING check_command check_ping!200.0,20%!600.0,60% normal_check_interval 5 retry_check_interval 1 event_handler make-ticket […]

在Nagios 4状态图中创build多个视图

我有nagios设置监视我们的基础设施跨越多个不同的网站。 随着我们业务的增长,它变得有点笨拙。 我还没有find一种方法来设置一个节点作为根,并只显示该节点的子节点。 我们正在监测每个客户/地理区域的数百个节点,而且我们目前的设置正日益变得越来越笨拙。 nagios / map.html?host = all接口似乎不可configuration。 无论我放在主机=后,似乎没有任何影响的结果。 我正在考虑在不同的端口上运行不同的nagios实例,每个根节点有不同的端口,我希望能够单独监视。 这与我想达到的目标相去甚远。 我想这可以归结为是否有一种方法可以使map.html吐出我还没有发现的节点的一个子集?

基于文件的日志监控与邮件触发器只?

我有来自我公司的各种异构服务能够将事物logging到文件中,但是例如不能自己发送邮件。 此外,我已经login到Apache httpd和Tomcat,Postgres,Upstart和其他各种来源的文件,默认情况下不使用例如Syslog。 所有这些服务的普遍意义是使用文件,但是日志大小,消息格式,是否旋转等都不同。 所以我正在寻找的是一些日志监视器,它侧重于configuration文件,并提供触发器来将新添加的内容与针对某些正则expression式的这些文件相匹配,或者用于向错误消息发送邮件。 我想有独立的东西,专注于使用触发器进行日志文件监视,并且通过例如使用文件系统事件来获得已更改文件的通知,只读取文件结尾而不是parsing整个文件等。 但是,在定义触发器时需要一些灵活性,但除此之外,它只需要发送带有日志消息的邮件到任意地址。 即使支持本地sendmail也不行,这些邮件的模板function很less。 我甚至不关心诸如识别多个错误信息等等。 我已经阅读了关于这个话题的整个一天,发现了各种不同的解决scheme,像Graylog,Logstash,Nagios / Zabbix插件等。但从我读到的,所有这些对我的环境有严重的缺陷:Graylog和Logstash似乎有沉重的设置和依赖关系,并提供我根本不需要的function,如在日志中search。 我目前不使用Nagios和Zabbix,也不确定它们的日志监视插件如何执行,因为它们似乎轮询基于时间的日志文件等。 另外, Zabbix的configuration看起来有点难以维护。 那么有没有更多的重点可用?