我期待为我的经理提供一个全面的监控系统,并一直在考虑OpenNMS。 不过,我在这里看到了对Nagios的赞誉,我希望有经验的人能帮助我说明关键的区别。 他们的焦点有所不同,还是仅仅是竞争对手? 如果一些背景有帮助,我们运行6台现场服务器(文件服务器,PBX,代理,应用程序等)和两台异地服务器(网站/开发)以及几台交换机和一台路由器。 我们安装的监控服务将运行在运行FreeBSD的单独的转换桌面上。 我们所有的东西都运行Linux或BSD衍生物。 我们正在寻找没有钱来实现这个(叹气)。 感谢您的帮助。 编辑它看起来像openNMS提供更接近我想要的更全面的解决scheme。 但是,由于它是用Java编写的,并且该端口不在官方端口树中,所以它被否决了。 现在开始我的Nagios会比MRTG运动更好。 感谢您的快速回复。 -机会
我使用Amazon EC2作为我的移动应用程序。 根据应用程序在特定时间的负载情况,我可能会产生新的实例,然后在负载较低时将其取下,以节省成本。 如何跟上这种dynamic环境下的Nagiosconfiguration? 当处理被pipe理的硬件时,configuration文件是可预测的。 在这种情况下,需要添加Nagios,Capistrano和其他一些configuration文件。 Capistrano需要知道在哪里部署一个新的构build应用程序服务器。 Nagios需要知道删除现有的实例或添加一个新的实例进行监控。 Nagios还需要知道某个节点是故意closures还是主机由于错误而closures。 这是如何做的VPS /dynamic实例的美好世界?
我们已经在我们的networking上实施了Nagios服务,并且运行良好。 通知很好,各种configuration选项非常方便。 到目前为止,我们直接通过修改文件来完成所有的configuration。 当我们开始向一些其他pipe理员开放这个,我想实现一个GUI,这将减less错误的可能性。 我已经检查了几个不同的GUI项目,到目前为止,看起来NagiosQL和NConf是目前最有竞争力的。 这两者之间是否有任何build议,或者应该考虑的其他build议? 如何安装和使用的故事,“陷阱”和技巧可能有助于决定?
问候, 我想问一下集体对分布式监控系统的看法和看法,你用什么,你知道哪些可能会打我的箱子? 要求相当复杂; 没有单点故障。 真。 我死了严重! 需要能够容忍单个/多个节点故障,既“主”和“工人”,你可能会认为没有监控位置(“网站”)有多个节点,或在同一networking。 因此这可能排除了传统的HA技术,如DRBD或Keepalive。 分布式逻辑,我想在多个networking,多个数据中心和多个大陆上部署5个以上的节点。 我想从我的客户的angular度来看待我的networking和应用程序的“鸟眼”视图,当您拥有50多个节点,甚至500多个节点时,监控逻辑的积分不会陷入停滞状态。 需要能够处理相当合理数量的主机/服务检查,la Nagios,假设每个主机有1500-2500个主机和30个服务。 如果增加更多的监控节点,可以相对线性地进行扩展,这可能是非常好的,也许在5年的时间里,我可能希望每个主机监控5000个主机和40个服务! 从上面关于“分布式逻辑”的说明中join,可以很好地说: 在正常情况下,这些检查必须在$ n或n%的监视节点上运行。 如果检测到故障,则运行另一个$ n或n%节点的检查,将结果关联起来,然后使用它们来决定是否满足条件来发出警报。 图表和pipe理友好的function。 我们需要跟踪我们的SLA,并知道我们的“高可用性”应用程序是否全天候运行是有用的。 理想情况下,您提出的解决scheme应该尽可能less地使用“开箱即用”的方式进行报告。 必须有一个坚实的API或插件系统来开发定制支票。 需要对警报有所了解。 我不想一定知道(通过短信,在凌晨3点) 一个监控节点认为我的核心路由器已经closures。 我确实想知道他们中有一定比例的人是否同意某些事情正在发生;)我在这里谈论的基本上是“法定人数”的逻辑,或者是对分散的疯狂的适用。 我愿意考虑商业和开源的select,虽然我宁愿避开费用数百万英镑的软件:-)我也愿意接受,可能没有什么东西在那里打勾所有这些盒子,但想问集体那个。 在考虑监视节点及其位置时,请记住,其中大部分将是随机ISPnetworking上的专用服务器,因此在很大程度上超出了我的控制范围。 依靠BGP提供和其他复杂networking滑稽的解决scheme可能不适合。 我还应该指出,过去我曾经评估,部署过或大量使用/定制过大多数开放源代码风格,包括Nagios,Zabbix和朋友 – 它们确实不是坏的工具,但总的来说,它们是平坦的“分布式“方面,特别是关于我的问题和”智能“警报中讨论的逻辑。 很高兴澄清任何要点。 欢呼伙计和加尔斯:-)
您好目前Nagios发送来自[email protected]的通知,我如何去configuration这个? 谢谢
我有一个开放的networking端口进行奇怪的情况。 我的主要问题是,为什么没有一个程序与一个开放的TCP端口相关联: netstat -ln –program Active Internet connections (only servers) Proto Recv-Q Send-Q Local Address Foreign Address State PID/Program name tcp 0 0 0.0.0.0:5666 0.0.0.0:* LISTEN – 对于我的具体情况,应该有一个监听端口5666的nrpe守护进程(opsview install),但是没有运行nrpe守护进程。 如果我尝试启动它,它会立即退出。 lsof -i :5666也不显示任何输出。 没有(x)inetd在我的系统上运行。 UPDATE 是的,我以root身份运行这些命令。 Telnet可以,但从来没有任何回应。 经过进一步的调查,我在dmesg发现了一个内核错误:这是一个EC2实例(实际上有几个)运行一个较旧的内核(2.6.16显然是不稳定的)。 停止崩溃的修复是升级内核 。 看起来内核崩溃的方式导致进程消失,并将端口打开。
我有一个Windows服务器,有时会在更新后重新启动到安全模式。 我正在处理这个问题,但是我真正想知道的是如何检查Windows是否在安全模式下运行。 理想情况下,我想将其纳入一个脚本,将发送被动检查到我们的Nagios框与状态。 是否有一些环境variables可以使用或通过命令行获取这些信息?
所以我们在CentOS上运行Groundworks(用Nagios)来监视我们的各种服务器和进程。 我有它设置为自动发送电子邮件和短信文本时,达到警告或危急状态。 通常这是完美的。 但是,两次我们遇到了Postfix在Postfix决定停止发送邮件的问题。 最近的时间持续了4天,因为我们没有人注意到。 这导致我有一个重要的问题:我该如何监控我的监控服务器?
我正在使用一个52“1080p的液晶显示屏来监控Nagios,并将其定位在大多数用户可以看到的地方。 使用默认的Nagios网页视图有点夸张,因为您需要增加文本大小,以便远距离读取,然后select“当前networking状态”,“主机状态总计”以及顶部的其他框大多数的屏幕房地产; 您无法真正看到主机详细信息列表。 有没有Nagios的自定义视图,或者是一个插件,或者是一个大文本的大屏幕上显示Nagios细节的东西?
我知道Zabbix和Nagios,但我不知道有哪家公司为他人提供这些服务。 我想find一个解决scheme,至less监视一些我的公共URL(如果他们正在返回一个预期的结果)。