在LAN中查找TCP重传的原因

你好服务器故障denizens

我有一个100台计算机,2个Windows域名服务器和12个VoIP电话的局域网的恼人的问题。 自从大约一年前安装以来,每隔一周左右,我们都会注意到VoIP电话会自动重置 – 偶尔会在通话中。 同时,计算机上经常出现连接暂时中断的迹象:访问networking共享时资源pipe理器冻结,pipe理软件中由于与数据库服务器连接中断而导致错误。

我一直在对VoIP PBX和其他networking之间的连接进行一些Wireshark监控。 在我们logging手机重启的时候,Wireshark会收到一串重发的TCP数据包。 Wireshark日志每天显示大约2个重传集群,从5个数据包到数百个。 每个集群中的主要是PBX和一些VoIP电话之间,但并不总是相同的集合。 同时经常重传的是连接到相同交换机的电话,但是有时重传一起发生在networking的相对端的电话。 通过TCPstream量通常会有一些重合的重传,例如在客户端机器和文件服务器之间。

重传和电话重置的高峰与networking重负载时不相关。 他们在白天似乎稍微多出一点,但是大部分在晚上,交通量应该减less。 当大多数计算机被closures并且stream量应该是最低的时候,它们经常发生在深夜。

你有什么想法可以帮助诊断这样的问题的原因? 有一件事我还没有尝试,但应该有,正在更新所有交换机的固件。

TCP重传通常是由于networking拥塞。 在发生问题时寻找大量的广播数据包。 如果您捕获的广播stream量百分比超过捕获总stream量的3%,那么您肯定拥挤。 在networking上寻找物理层(ARP)和networking层(名称parsing)广播。 如果您发现大量的广播stream量,则可以从捕获数据中将其跟踪到源。

收集交换机的stream量统计信息可能会显示您有一段时间在以容量运行或接近容量。 当初始化超时(通常为3秒)内不响应时,可能导致重试。 这会暂时增加堵塞,直到堵塞缓解机制开始。

寻找使用stream媒体的人,因为这可以迅速吸收带宽。

您可以通过stream量整形来缓解手机的问题。 这只会将问题转移给其他用户。

听起来像一个生成树循环或广播风暴,特别是如果重传和问题是本地化到相同的交换机(这是不同的)。 发生这种情况时,L2设备上的端口状态是什么? 可能是坏的交换机或坏的根桥优先级? 有趣的问题。

你可能已经解决了这个问题,因为它已经很长时间了,但是本质上你需要在有端点的端口(VoIP电话,工作站,服务器)上启用“快速端口”。 一个电话可以发送PDU,所以如果这个家伙重新启动它将导致STP收敛,从而导致FDB表被刷新,所有设备都要经历4/5步STP乐趣。 通过将端口与端口放在“快速端口”,他们跳过等待,然后转到转发模式。

希望你的手机在不同的子网和VLAN从其他电脑?

它也可能是一个错误的设备,如错误的开关。 重传是否与一台特定交换机或部分networking上的电话/计算机相关?

只是稍微扩展我的答案。 并非所有开关都是相同的,即使它们具有相同的规格。 有些能够应付比其他更高的负载,因为它们内部有更快的处理器。 这可能是因为你的交换机不够高。

我会先把你最麻烦的VOIP电话放到自己的物理交换机上,看看那些复位是否继续。 如果它消失了,那么你很快就会解决这个问题。