HTTP上的间歇性连接超时 – 在一台服务器上parsing,但仍然存在问题

我有两台Web服务器与我的托pipe服务提供商,都运行CentOS 7 x64,都具有相同的Apacheconfiguration,PHPconfiguration,iptablesconfiguration等

我有一个networking监视代理,它发送一个HTTP请求到我想要使用datadog每15秒监视的各种URL。 它设置为在5秒后发出连接超时警报。

两台服务器之间的唯一区别是具有4个CPU内核的4GB RAM。 另一个是2GB RAM和1个CPU核心。

两台服务器最初都是在几个小时内收到超时警报,在几天和几周内,与我的托pipe服务提供商交谈,并运行检查以确定原因。

我们使用PING和MTR命令检查了进入服务器和每一跳的networking,certificate了到服务器的networking是好的,没有丢包。

我们检查了DNSparsing时间,DNSparsing速度很快,所以这不是问题,我们也检查了TCP响应时间,这也是很快的。

在从服务器获取局域网追踪信息后,我们发现服务器在SYN后响应SYN / ACK,即使ping在这段时间内愉快地响应,但由于SYN没有响应,服务器不停地发送重传。

我们在serverfault上find了一个可能修复的链接,虽然我已经匹配了serverfault。

我最终build立了一个新的主机提供商的testing服务器,发现问题消失了 – 理想情况下,我想留在原来的提供商,与他们约5年,所以我比较内核TCP设置与新的主机与当前的主机。 我发现了一些差异,我closuresnet.ipv4.tcp_fastopen并打开net_ipv4_tcptimestamps。

我改变了这两个服务器上的这些设置,这个问题奇迹般的消失了,但只有其中一个1。

我为什么要为1台服务器修复这个问题,而不是另一台服务器,而且有点绝望(这已经持续了将近4周),所以我重新安装了服务器2。

2天,我没有收到另一个超时,所以认为它已经修正了(我原来每天超时3到4次,所以2天没有看起来很有希望),但是然后从另一个地方得到另一个连接超时警报。

如前所述,TCP响应时间最短,DNS响应时间最短,HTTP响应时间最短,并且当超时发生时,在apache日志中没有它的踪迹,所以看起来像apache从来没有试图处理请求,但我们已经证实networking本身是完美的。

有没有其他人看过这个,或者可以阐明我还可以尝试什么来确定这个问题是什么。

感谢您的任何帮助,您可以提供。