我一直在使用rsnapshot来成功备份一些服务器,并且对于一个主要的问题比较满意。 对于那些使用rsnapshot的人,你如何监控它? 我想要一些方法来validationrsnapshot正在运行,它正在拉下文件,一般来说,它正在工作的方式应该是。 如果不是,我应该马上通过电子邮件发送,这样我就可以解决这个问题。 显然,这不能代替恢复文件的定期testing,这是我过去遇到的问题。 我只是想自动添加一些东西来join我的testingscheme,这样可以更快地发现和纠正这些错误。 你用什么来监控rsnapshot? 或者,您的备份监控策略一般是什么?
我冒昧地testing了SCOM 2007和Zenoss,结果如下: SCOM 2007 优点: 伟大的MS Windows服务器监控和报告 深入configuration并轻松集成到“MS数据中心” 缺点: 有限的networking设备监控支持(无第三方插件) 昂贵 学习曲线困难 Zenoss的 优点: 开源(免费) Windows的体面的服务器监视,对Linux的很好的监视 体面的networking设备监控 缺点: 不像SCOM那样深入(至less对Windows而言) 所以我对你们的问题是这样的: 鉴于上述情况,鉴于我试图监视55台Windows服务器,1台Linux服务器,2台ESX服务器和瞻博networking设备……您会推荐哪些设备?
有没有这样的插件? 如果是,我该如何设置? 我在一台服务器上安装了Nagios(Nagios监视它所在的盒子),所以我不需要从networking上获取这些信息的任何奇特的方法。
我对基于代理的/类似SaaS的监控服务(如Scout和服务器密度)印象深刻。 它们都为我的* nix盒子提供了非常好的趋势,警报和报告function,而且我需要为Windowsfind类似的东西。 任何人都可以推荐这样的工具吗? 由于部署环境由资源有限的精益团队所拥有,因此该工具是与上述产品一致的集中式服务,这一点很重要。 谢谢!
如何启用haproxy检查结果的日志logging(或仅失败)? 我已经看到一些邮件列表post暗示这是可能的 : Server LDAPSFarm/LDAPS1 is DOWN, reason: Socket error, check duration: 277ms. 1 active and 0 backup servers online. 0 sessions requeued, 0 total in queue. 但是我没有得到相同的结果。 我的configuration更多的是这样的: global log 127.0.0.1 local0 user haproxy group haproxy spread-checks 5 defaults log global mode http option httplog option dontlognull retries 3 redispatch maxconn 2000 stats enable […]
我一直是一个nagios用户。 最近,随着服务器机队规模的增长,nagios的警报数量也随之增长。 信噪比已经很低了。 例如。 当一个普通的服务失败时 – 所有使用该服务的负载平衡的networking服务器,因此检查它开始提醒。 与系统警报混合可能从该服务出现在不同的顺序导致大量的噪音。 我可以花很多时间和确保我的nagiosconfiguration是好的,但是它越来越难以pipe理。 我正在寻找一个工具(或Nagios的插件),重复删除和智能抑制警报。 此外,我还希望在问题售票系统中跟踪“问题”/中断情况 – 这样,任何人都可以有一个地方来处理发生问题的情况。 也看看档案。 是的,我可以在一定程度上在Nagios做 – 但它不是很好。 当我看到我发现了大量的工具( http://www.slac.stanford.edu/xorg/nmtf/nmtf-tools.html#public ),但似乎没有人谈论像重复数据删除,问题跟踪和pipe理
有没有什么办法在一段时间内显示从apache请求最多的URL,例如过去2小时内请求最多的URL。 这种types的事情可能与mod_status或我可以聚合的访问日志?
我使用Hyperic来监控一些企业资源,并且很难监控他们的日志文件的内容和大小,因为他们有一个失控的习惯。 监视内容很容易,但我不知道如何监视文件大小。 这是什么东西,可以开箱即用,或需要一些常规脚本来完成?
我正在努力提高MySQL服务器的性能。 我正在寻找一些东西来衡量和监测MySQL的性能(每秒查询),以便我可以衡量我所做的任何改进。 他们的任何易于使用的开源软件,这样做? 谢谢。
在发送服务失败之前是否有可能让nagios检查主机? 如果主机closures或重新启动,我们会得到很多的服务通知,但只需要1主机下来.. 这是一个非常烦人的问题,因为我们将nagios与我们的票务系统联系起来 更新 : 我不知道发生了什么事,我们有2个Nagios环境,我只是从其他部门inheritance了环境,这是他们的主要抱怨之一(对我来说也是新的,因为我自己的环境有更多的检查,从来没有这个问题) 在清理(几乎没有运行的)环境并在帮助台工具(otrs)中执行它之后,我没有看到这种行为,所以我怀疑这些消息只是在同事的脑海中(因为nagios每分钟发送数次)! 经过几个星期的努力,现在的绿色环保部门对此非常满意。 对不起,我没有closures这个问题之前,并感谢您的时间! 另一个更新 :终于想通了(我认为)。 nagios代理(opsview)崩溃,所以它发送的连接被主机消息拒绝。 我认为这是困扰着IT部门。