Articles of 监控

最好的开源监控工具?

我试图在Zenoss和GroundWork之间做出决定。 我需要一个企业级的监控工具,我听说了这些工具的真正好评。 你们有没有实施过他们? 哪些是他们的优点? 缺点?

针对java / tomcat / linux环境的部署和监视工具

我是一个多年的开发者,但是没有很多经验,所以如果这是一个新的问题,请道歉。 在我的公司,我们运行一个以Java编写的Web服务,主要基于Tomcat Web服务器。 我们有两个数据中心,每个数据中心大约有10个主机。 主机有几种types:Dababase,Tomcats,一些脱机java进程,memcached服务器。 所有主机都是Linux CentOS 直到现在,当发布一个新版本到生产版本时,我们一直在使用一套内部shell脚本来复制战争/战争,并重新启动tomcats。 公司规模越来越大,从事开发,QA,升级到生产等各个环节的工作越来越困难。 一个典型的发行很多时候涉及到人为错误,这使我们的宝贵的正常运行时间。 有时我们需要恢复到最后一个已知的好处,这是不容易的… 我们正在寻找一个工具,一个框架,一个解决scheme,将提供以下内容: 支持给定的技术列表(java,tomcat,linux等) 通过不同的阶段提供简单的部署,包括质量保证和生产 提供configurationpipe理。 例如,设置服务器属性(每个主机的连接URL等),server.xml或上下文configuration等 监测。 如果我们可以在同一个软件包中进行监控,那会很好。 如果没有,那么我们可以使用另一个工具来监视我们的服务器。 最好是有大量文档的开源代码;) 谁能分享他们的经验? build议一些工具? 谢谢!

监视带宽使用情况(每个内部IP) – Cisco ASA 5505

我使用Cisco ASA 5505和共享的DSL连接pipe理小型networking。 我想能够监视我的networking上的各种用户/设备(按IP地址)的带宽使用情况。 我可以使用ASA来做到吗? 有没有人得到这个工作? 做这个的最好方式是什么? 我在网上看到的一些想法: SNMP与像Cacti一样的工具 这是否给每个IP使用ASA或只是整体使用? Netflow与ntop一样的工具 无法得到这个工作。 看来ASA发送的Netflow并不完全是标准的。 Ntop收到他们,但似乎不知道他们是怎么做的。

在VMWare ESXi上监视硬件RAID

我在“不支持”的硬件上安装了ESXi 3.5服务器 – SuperMicro主板,Adaptec 9410 3405 RAID控制器(哎呀,9410是没有用于RAID的板载控制器) – 我开始怀疑RAID的重点是什么,因为我们没有任何监控。 除了100%兼容系统/使用像vSphere这样的付费产品之外,是否有可能在ESXi上监控RAID?还是应该切换到“认可的”硬件系统或SAN? 更新:我发现这个Adaptec知识库文章说ESXi没有监视支持: ESXi Server 3.5中embedded了AACRAID驱动程序(请参阅VMwareauthentication兼容性指南),但不提供pipe理软件(ASM或ARCCONF)。 然而,卡片有诊断指示灯,所以我猜想某种硬件破解可能是最后的手段。

我应该在Linux服务器上监视哪些指标?

我一直负责设置300台服务器的监控,做不同的事情。 我一直在寻找各种工具,比如Nagios,Munin和其他的工具,所以我首先得到了一个很好的主意,就是如何实现监控。 我想知道的是,在我对服务器了解不多的情况下,哪些度量标准通常会被视为一个很好的默认值? 而且,就警报而言,“理智的违约”是什么? 我的计划是部署一个以理智默认值为首的监控scheme,同时绘制出不同系统的angular色 – 我预计这需要一些时间。 这个问题也可以用不同的方式提出: 如果您正在devise一个监控设备,那么它的默认Linux监控模板应该包含哪些内容?

networking嗅探和集线器

这对专家来说可能显得天真……但最近我一直在想。 多年来,我一直使用ntop和一个便宜的4端口中枢来嗅探客户端networking,以确定谁在做什么 – 多less。 当他们打电话说“Geeze,networking今天看起来真的很慢”的时候,看看发生了什么的好方法。 不需要引入托pipe交换机(或访问现有交换机),也不需要configuration生成或镜像。 我只是在我想要测量的内联轴线上下降。 最近我注意到,再也无法购买一个真正的诚实中心了。 在寻找一个新的,我有人告诉我,我应该一定要得到一个全双工中心,或者我只能看到一半的stream量,当我监视。 真? 我一直在使用一台硬壳的旧式的Netgear DS104。 没有线索,如果它是一半或FD。 我真的低估了我的测量结果吗? 我只是不够明确的物理层真正知道… 附注:刚刚订购了Dualcomm以太网交换机TAP作为集线器的替代品。 看起来像一个漂亮的小工具。 任何关于它的笔记或提示将受到欢迎,在评论:-)

有没有办法从Nagios主机组中排除特定的主机?

我有一个包含许多主机组的Nagios服务器。 其中一个主机组包括一个服务器,我想排除检查一个特定的Nagios Check但我希望它继续作为主机组的成员,所以它可能会检查所有其他checks hostgroup检查。 有exclude选项或类似的东西可以帮助我实现我的目标吗? 谢谢

你用什么工具来监控你的客户?

那么,我们有“ 你用什么工具来监视你的服务器? ”,我想知道,你(你应该)监视你的客户(台式机和笔记本电脑)? 哪些工具对此有用? 在我看来,应该监视客户端 – 看他们performance如何,也许留意电池寿命和电源使用情况,也许观看硬盘驱动器,networking,CPU甚至GPU使用情况,事实上,查看实验室用户是否避开某台机器,或者是否从不在networking上显示。 如果容易确定,请说明某个工具使用哪个平台,以及许可证或成本。

在linux服务器上测量带宽使用(GB传输)

我有一个Linux电子邮件服务器,我正在考虑进入“云”。 在调查定价后,我看到我的主要成本将在带宽。 你们如何build议衡量一段时间内传输的数据总量?

SMART提醒我,但我不相信它

我有一台配有四个三星硬盘的服务器。 所有驱动器都是相同的型号,并一起购买。 驱动器是SAMSUNG HE753LJ,固件为1AA01113。 我收到SMART错误,但我有这样的感觉,smartctl不理解他从硬盘上获得的价值。 以下是SMARTtesting的结果: asgard:〜#smartctl -H / dev / sdb smartctl版本5.38 [i686-pc-linux-gnu]版权所有(C)2002-8 Bruce Allen 主页是http://smartmontools.sourceforge.net/ ===开始读取智能数据部分=== SMART全身健康自我评估testing结果:失败! 预计在不到24小时内发生驱动器故障。 保存所有数据。 失败的属性: ID#ATTRIBUTE_NAME标记值最差值types已更新WHEN_FAILED RAW_VALUE 3 Spin_Up_Time 0x0007 001 001 011预失败始终FAILING_NOW 60340 我不相信SMART,因为: 所有磁盘在不到24小时内即将失效已经有一年多的时间了。 没有东西爆炸了。 维基百科说,“ 旋转时间是主轴旋转的平均时间(从零转速到完全运行[毫秒])。 ”这意味着驱动器需要大约一分钟的时间才能醒来?! 我想遵循smartctl的build议,改变这些磁盘,但我不相信我读到的结果。 你怎么看待这件事? 你会怎么做? 谢谢你的帮助。