我可以通过SSH连接到服务器并运行命令,但通常在一分钟内会话将会挂起(变得无法响应)。 我可以键入命令,但它们甚至没有在terminal上回显。 但他们排队,最终将运行。 这是在我们的大部分服务器上进行了小规模的networking更改之后才开始的,但是networking团队一直无法确定原因并指向系统问题。 我在我的智慧结束,即将开始重新安装操作系统,看看是否有帮助。 我在服务器端和客户端都运行了tcpdump ,所有我看到的都是时间上的巨大差距,并且在这里和那里有一些TCP重置,但没有任何明确的规定。 Sysstat不显示任何I / O问题或任何东西。
我使用openssh-server-5.3p1-104运行CentOS 6。
丢包和最终恢复的连接几乎肯定是由丢包引起的。 数据包丢失时,从数据包捕获应该很清楚。 如果一个数据包是由连接的一端发送的,而另一端没有被接收,则它必须被中间networking丢弃。
数据包可能在运行中被损坏,而不是被丢弃。 在这种情况下,您应该查找数据包,不会触发ACK。 如果可以find其中的任何一个,请检查接收端的数据包是否与发送的数据包不同。
这种分析最简单的方式是将stream量转储到文件中,然后将问题重现,然后将两个pcap文件下载到要检查文件的机器上。 我可以推荐Wireshark查看数据包的详细信息。