服务器 Gind.cn

服务器问题集锦,包括 Linux(Ubuntu, Centos,Debian等)和Windows Server服务器

地理分布,容错和“智能”应用程序/主机监视系统

问候, 我想问一下集体对分布式监控系统的看法和看法,你用什么,你知道哪些可能会打我的箱子? 要求相当复杂; 没有单点故障。 真。 我死了严重! 需要能够容忍单个/多个节点故障,既“主”和“工人”,你可能会认为没有监控位置(“网站”)有多个节点,或在同一networking。 因此这可能排除了传统的HA技术,如DRBD或Keepalive。 分布式逻辑,我想在多个networking,多个数据中心和多个大陆上部署5个以上的节点。 我想从我的客户的angular度来看待我的networking和应用程序的“鸟眼”视图,当您拥有50多个节点,甚至500多个节点时,监控逻辑的积分不会陷入停滞状态。 需要能够处理相当合理数量的主机/服务检查,la Nagios,假设每个主机有1500-2500个主机和30个服务。 如果增加更多的监控节点,可以相对线性地进行扩展,这可能是非常好的,也许在5年的时间里,我可能希望每个主机监控5000个主机和40个服务! 从上面关于“分布式逻辑”的说明中join,可以很好地说: 在正常情况下,这些检查必须在$ n或n%的监视节点上运行。 如果检测到故障,则运行另一个$ n或n%节点的检查,将结果关联起来,然后使用它们来决定是否满足条件来发出警报。 图表和pipe理友好的function。 我们需要跟踪我们的SLA,并知道我们的“高可用性”应用程序是否全天候运行是有用的。 理想情况下,您提出的解决scheme应该尽可能less地使用“开箱即用”的方式进行报告。 必须有一个坚实的API或插件系统来开发定制支票。 需要对警报有所了解。 我不想一定知道(通过短信,在凌晨3点) 一个监控节点认为我的核心路由器已经closures。 我确实想知道他们中有一定比例的人是否同意某些事情正在发生;)我在这里谈论的基本上是“法定人数”的逻辑,或者是对分散的疯狂的适用。 我愿意考虑商业和开源的select,虽然我宁愿避开费用数百万英镑的软件:-)我也愿意接受,可能没有什么东西在那里打勾所有这些盒子,但想问集体那个。 在考虑监视节点及其位置时,请记住,其中大部分将是随机ISPnetworking上的专用服务器,因此在很大程度上超出了我的控制范围。 依靠BGP提供和其他复杂networking滑稽的解决scheme可能不适合。 我还应该指出,过去我曾经评估,部署过或大量使用/定制过大多数开放源代码风格,包括Nagios,Zabbix和朋友 – 它们确实不是坏的工具,但总的来说,它们是平坦的“分布式“方面,特别是关于我的问题和”智能“警报中讨论的逻辑。 很高兴澄清任何要点。 欢呼伙计和加尔斯:-)