通常我的用户要求我负责了解事件是否发生。 我一直都必须用cron'ed shell脚本和大量的date边界案例testing来构build自定义和脆弱的解决scheme。 集中采伐应该允许有一个更好的,更易于维护的方法来掌握过去N小时内没有发生的事情。 像logstash注意和nagios警报。 更新 被推翻的回答非常有帮助。 O(Light。Bulb。)我现在有十几个批处理作业正在进行新鲜度检查。 我想彻底回答正义,并跟进我如何实现他的想法。 我configurationjenkins发出系统日志,logstash捕获它们并通过nsca发送状态更新给nagios。 我也使用check_mk保持一切干燥和组织在Nagios。 Logstashfilter :::ruby filter { if [type] == "syslog" { grok { match => [ "message", '%{SYSLOGBASE} job="%{DATA:job}"(?: repo="%{DATA:repo}")?$', "message", "%{SYSLOGLINE}" ] break_on_match => true } date { match => [ "timestamp", "MMM d HH:mm:ss", "MMM dd HH:mm:ss" ] } } } 神奇的是grok的匹配参数中的双模式,以及break_on_match => true。 […]
我们是一家即将通过互联网将我们的SaaS应用程序部署到最终用户的ISV,目前正在寻找应用程序监控解决scheme。 除了监视常见的操作系统级别的嫌疑人(I / O,磁盘空间,日志,CPU,内存,交换等)外,我们还希望监视,警报和报告内部应用程序事件,条件和计数器(考虑内部服务的队列大小,或者通过自定义API从第三方获得的服务的延迟)。 我们开始看Nagios,Zenoss等,但是发现那些只有低级的东西,目前正在看MOM和ManageEngine。 尽pipe如此,他们远不是一个定制的应用程序监控工具。 所以 – 你有什么build议吗?
在Ubuntu服务器上运行Monit 5.4。 当我使用monit reload ,它似乎重新启动受监视的服务(Tomcat 7在这种情况下)。 这是预期的行为? 文档说 : 重新加载 – 重新初始化正在运行的Monit守护进程,守护进程将重新读取其configuration,closures并重新打开日志文件。 我希望它不会重新启动任何服务,但只重新加载它的configuration,这样我可以改变电子邮件警报和其他东西。 这是monit status的输出 The Monit daemon 5.4 uptime: 15h 0m Process 'tomcat7' status Running monitoring status Monitored pid 38842 parent pid 1 uptime 14h 30m children 0 memory kilobytes 3445964 memory kilobytes total 3445964 memory percent 10.4% memory percent total 10.4% cpu percent […]
目标 是要找出哪些networking部分应该升级/重组,以提高networking的健康(可靠性和性能)。 监控networkingstream量,检测瓶颈,延迟,丢包的方法有哪些? 我可以从networking中的1点做到吗,还是必须将我的电脑插入特定的networking位置? 什么是检查networking负载,检测瓶颈等最好的策略? 现在有很多工具,但是正在安装并运行足够的ntop , cacti ? 我search了一下,发现了一些说 ntop是一个显示networking使用情况的networkingstream量探测器,类似于stream行的Unix命令。 但直到我明白如何收集数据,我才能使用它,所以我问这个问题。 背景 我们的networking完全build立在廉价的networking交换机上,但是networking已经大大扩展了,包括计算机,networking摄像机和其他一些带有networking接口的硬件。 所有的networking设备都是100mbit,没有一个是1gbit。 摄像机logging在远处的几台电脑上,在远处的其他电脑上观看。 电脑不超过50个,但很less有很远的地方(这里的面积很大),有些距离300米以外。有一个无线电连接和光纤connceting这些地方。 这些电脑通常连接数据库应用程序。 networking地图 红线是光纤 黑线是以太网电缆 盒子是物理位置
使用Active Directory,监控复制的好方法是什么? 我有多个站点和多个位置,所以理想情况下,站点间和站点内的复制都将受到监视。 我不确定是否需要监视每个DC,每个NTDS连接或每个DC *每个NTDS连接。 为了适应标准的警报方法,perfmon计数器可以让我提醒复制是否在X分钟之后,似乎是理想的。
我试图在Docker容器中运行应用程序构build并收集资源使用统计信息。 我可以通过检查在Ubuntu 14.04主机上运行docker的id foobar容器的示例内存使用情况详细信息来收集使用情况度量标准: /sys/fs/cgroups/memory/docker/foobar/memory.stat 但在Centos 7主机上,“/ sys / fs / cgroups / memory / docker”目录缺失。 如何在Centos 7主机上find容器特定的内存或CPU使用情况。 谢谢
我只需要监视一次互联网连接的频率以及多长时间。 我只是写了一点python每分钟8.8.8.8,但我认为必须有一个实用程序这样做 – 并产生一个很好的报告 但是,这是一个简单的SOHOtypes连接的分支机构,没有SNMP路由器,仅Windows,必须在不专用于该任务的台式机上运行。 不需要知道容量,ping等待时间或任何事情 – 只需要几秒钟的时间就可以向有线公司报告。
我试图设置Nagios来监视我的各种机器使用主机组来定义“机器angular色”,我运行服务来检查angular色的机器。 但是,我想使用条件运算符,使我能够对两个主机组的交集,而不是他们的联合运行服务检查…即使用&&,||或()运算符。 例如,假设我有以下服务器: www-eu : 欧盟的 Linux WWW(Apache)服务器 www-us :Windows WWW(IIS)服务器,在美国(西海岸) ftp-eu :在欧盟的Linux FTP服务器 ftp-us :Windows FTP服务器,在美国 我想创build以下主机组: US-Servers :www-us,ftp-us 欧盟服务器 :www-eu,ftp-eu WWW服务器 :www-us,www-eu FTP服务器 :ftp-us,ftp-eu 现在说我有兴趣检查我的Web服务器的HTTP响应时间。 那么让我们说这个特定的Nagios服务是从美国(西海岸)运行的,而且我有一个名为check_http_response_time的命令。 这个命令将检查HTTP服务器的响应性,我可以提供一个参数来定义提高临界值之前的最大响应时间。 我的命令可能看起来像: check_http_response_time $HOSTNAME$ 50 现在传统上,我可以通过指定主机或主机组列表来运行我的检查。 define service{ use local-service hostgroup_name WWW-Servers # Servers = www-us, www-eu servicegroups WWW Checks service_description Check HTTP Response Time check_command check_http_response_time!50 […]
我一直负责开始监视和限制我们公司的互联网接入。 我们已经考虑了一个Squid代理服务器,但已经决定我们需要更强大的东西。 我们希望Packeteer产品中常用的许多function,例如整形,基于Web的GUI和压缩function,但如实地说我们简单,不能经常面对昂贵的价格。 我们也审查了思科的select,但同样的成本限制。 有没有人有任何build议这种types的设备更便宜的制造商或供应商? 我们将在过滤一个25-40MB的pipe道(分层T3)。
假设我从同一个操作系统映像构build了1000台服务器,包括SNMPconfiguration在内的一切都是一样的(当然,它们都有唯一的IP地址)。 对于每个服务器,我想通过SNMP使用Nagios来监视相同的12个服务。 在Nagiosconfiguration中,有没有办法configuration每个服务器,以便我不必在每个主机文件中重复12个服务条目? Something like: Host MyHost { ServiceGroup 12Monkeys; } 更好的是,有没有办法说“这1000台服务器,监控这12个服务”? Servicegroup 12Monkeys { Servers: 192.168.0.0/24; } 谢谢!