诊断随机networking滞后

在为MediaWiki站点提供服务的6台服务器LAMP集群上诊断一些随机延迟时遇到了问题。虽然我们提供了大约100页/秒的服务器本身运行正常，负载less于0.5，没有locking的进程，没有分页，没有错误被logging等。

所有服务器上都存在延迟，并且是随机的：一分钟就可以了。
服务器上的DNS查询速度很慢。例如， time nslookup google.com随机变化从几毫秒到几秒，有时完全超时。虽然我们在集群内部使用IP地址，但这可能是根本问题的症状。我们没有运行我们自己的DNS服务器。
Apache server-status页面随机滞后或超时。在服务器之间使用ab进行基准testing显示一些负载有时需要3000毫秒（几乎完全）。在本地服务器本身的基准server-status通常显示没有问题（它在几百次testing中仅显示一次滞后）。

服务器坐在交换机和防火墙后面，我没有任何访问权限，所以我不知道他们的设置或状态。当我们处于比正常负载更重的情况下，2 Mbps传入和20 Mbps传出stream量不应该强调交换机或防火墙吗？我的感觉是，这是在交换机/防火墙或上面的ISP在他们的DNS像他们的DNS，但无法证实它。

我需要一些其他的testing或诊断这种滞后的方法来试图缩小最终的原因。

诊断问题几乎总是要求您进行某种forms的监控。

推出像OpenNMS ， InterMapper ，仙人掌，或者如果你是绝望的Nagios ，并看看stream量，系统负载等，当你看到一个问题。您的监控系统提供的信息可能会帮助您找出问题所在。

问题原来是防火墙有10,000个连接的硬限制。难以跟踪这种情况主要是由于没有访问防火墙，并说服服务提供商确实存在问题。