我有一个24/7系统,有一些运行Ubuntu jaunty(9.04)的半自治节点(embedded式x86 minipc)。 他们每个人都需要networking连接来收集信息进行操作。 如果出于某种原因,我使用monit重新启动某些服务,并使用Nagios 3监视每个节点,但我不知道在Linux下自动评估系统的完整性。 更具体地说,如果networking连接出现问题(例如networking驱动程序工作不正常),每个节点如何评估其“健康状况”以确定是否需要重新启动(抱歉,没有更具体)? 你们有意见/经验吗?
提前致谢!
我不知道什么时候需要自动重新启动,并且可以从机器本身启动。 在最坏的情况下,你可以设置一个看门狗,如果它卡住了将重启机器。 不过,在大多数情况下,最好重新启动服务。 如果你想要一个聪明的方法,我会用puppet来pipe理文件,包和服务之间的依赖关系。
你们有意见/经验吗?
我想你正在期待和玩弄与Windows通常相关的黑魔法。
我从来没有见过,并会非常怀疑连接问题,可以通过重新启动可靠地解决。 即使是提供临时修理,在将机器投入使用之前,我还是要确定原因和解决scheme。
做functiontesting(你可以写Nagios检查,如果没有人可用的话,如果你现在使用某种脚本语言,那也不难)。 testing您的服务是否可以从Nagios机器上正常运行。
节点本身可以尝试访问Nagios机器,如果无法访问,只需重新启动自己,但是可能更喜欢在具有良好驱动程序的硬件上运行。
把界面下来然后备份起来怎么样? 它确实解决了重新启动会解决的大多数问题。
只需从cron执行,或者使用脚本来检查连通性,如果情况不好,则可以使用接口,如果没有修复,重启。