机架内以太网速度比机架内速度低

我有一个32台机器的集群。 前25台机器在第一个机架上,其余7台机器在第二个机架上。 每个机架都有一个1Gbps以太网交换机。 不同机架之间的networking通信肯定会有性能损失(我不完全知道)

我使用networking性能基准testing工具(如'iperf')来测量机器之间的networking速度。 没有问题(32台计算机之间的所有点对点连接都可以利用全带宽)。

但是,在我的应用程序(这是对请求/响应networking通信架构的延迟敏感)。 机架间networking速度比机架内网速慢4〜5倍。

我能在这里做什么吗? 任何知名的策略适用?

那么,我认为你已经确定了你的问题:两个交换机之间的链接争用。

看,每个交换机都有一个多千兆位的背板。 这意味着,根据交换机的能力,交换机可以同时支持多个全双工千兆传输。 但是,交换机之间的链路只有一个千兆位全双工。 所以这个链接变得饱和,然后事情变慢。

要确认发生了什么情况,请在您的交换机上添加监控,并在速度testing期间检查您的上行链路端口的统计数据。

一旦你确认,你有几个选项。 首先,考虑在交换机之间使用802.3ad LAG上行链路。 这将不允许任何stream量超过1Gbit,但是您将能够支持多个并发的1Gbitstream,其数量取决于您使用的LAG成员端口的数量。

另一个select是升级到可以支持10Gb上行链路的交换机。