在我们的服务器机房中,我们有几台2012年的Mac mini,当邻近的服务器负荷过重时,可以与1GbEnetworking可靠地断开连接(但似乎还在工作)。
我们怀疑RFI / EMI,但不能100%确定,因为我们还没有一个好的方法来衡量和隔离来源。 在同一个房间里的其他服务器(超过50个,包括一堆xserves)都很好。 从服务器机房出来,Mac Minis都很好。
奇怪的部分:
- 在将三台新服务器(渲染节点)添加到三个现有的群集之后,断开连接开始发生,几乎找出它们作为问题的根源
- 这些服务器空闲时没有问题
- 问题似乎开始时,所有六个都低于50%或更高的CPU负载
- 服务器机房里的所有其他设备 – 很多,各种各样 – 没有问题; 只有Mac迷你影响
你有什么build议排除故障并解决这个问题? (除了closures那些新的渲染节点之外 – 我们确实需要这些渲染节点,而这些节点似乎不会影响其他任何东西。)
我们已经尝试过了:
- 放入一个已知的好的2012年Mac迷你,并观察同样的问题(我们没有Mac迷你人比2012年)
- 在服务器机房周围移动Mac mini; 房间内的位置似乎并不重要
- 从渲染节点和其他设备收集CPU利用率数据; Mac minis和使用Solarwinds NPM的其他networking设备的响应时间和超时; 观察渲染节点上的CPU负载尖峰与Mac mini上的networking问题之间的强相关性
PS我们还没有做的事情:
- 检查是否只有一个服务器行为exception的可能性,一次性断开一个服务器的连接,同时将剩余的服务器置于100%的CPU负载下
- 研究RFI / EMI测量和隔离设备和服务
- 尝试将麦克风(其电源电缆是2插脚,未接地)或以其他方式屏蔽它们,使其免受RFI / EMI
我们确实需要Mac迷你版,因为我们用完了Xserve,某些应用程序只能在Mac上运行。
PPS道歉,如果这是脱离主题和/或在错误的论坛。
感谢您的任何想法!