诊断随机networking滞后

在为MediaWiki站点提供服务的6台服务器LAMP集群上诊断一些随机延迟时遇到了问题。 虽然我们提供了大约100页/秒的服务器本身运行正常,负载less于0.5,没有locking的进程,没有分页,没有错误被logging等。

  • 所有服务器上都存在延迟,并且是随机的:一分钟就可以了。
  • 服务器上的DNS查询速度很慢。 例如, time nslookup google.com随机变化从几毫秒到几秒,有时完全超时。 虽然我们在集群内部使用IP地址,但这可能是根本问题的症状。 我们没有运行我们自己的DNS服务器。
  • Apache server-status页面随机滞后或超时。 在服务器之间使用ab进行基准testing显示一些负载有时需要3000毫秒(几乎完全)。 在本地服务器本身的基准server-status通常显示没有问题(它在几百次testing中仅显示一次滞后)。

服务器坐在交换机和防火墙后面,我没有任何访问权限,所以我不知道他们的设置或状态。 当我们处于比正常负载更重的情况下,2 Mbps传入和20 Mbps传出stream量不应该强调交换机或防火墙吗? 我的感觉是,这是在交换机/防火墙或上面的ISP在他们的DNS像他们的DNS,但无法证实它。

我需要一些其他的testing或诊断这种滞后的方法来试图缩小最终的原因。

诊断问题几乎总是要求您进行某种forms的监控。

推出像OpenNMS , InterMapper , 仙人掌 ,或者如果你是绝望的Nagios ,并看看stream量,系统负载等,当你看到一个问题。 您的监控系统提供的信息可能会帮助您找出问题所在。

问题原来是防火墙有10,000个连接的硬限制。 难以跟踪这种情况主要是由于没有访问防火墙,并说服服务提供商确实存在问题。