解决exception服务器机房电源问题。 (怀疑电涌或尖峰)

我们在所有电源sockets的新办公室服务器机房中遇到了一个非常奇怪的问题。

具体来说,当所有设备启动并运行时(即空调系统,2x机架式服务器,5个48端口PoE交换机以及在服务器机房内具有备用电池和主控制电路的门禁系统)我们偶尔会看到服务器自动重启,门禁系统重新启动,同时PoE交换机也会一次进入20分钟或更长时间的非function状态。 发生这种情况时,所有三个系统将同时重启。 所有三个系统都在同一个电路上。

服务器和交换机在UPS设备上运行,并且卡访问系统也具有自己的备用电池 – 所以瞬间的电力损失不能解释这一点,因为一切都应该继续从UPS运行而不中断。 我们已经将UPS从墙上断开,并且已经看到服务器按照预期继续运行 – 所以就停电而言,UPS似乎正在正常工作。

没有一个断路器已经跳闸或需要重置。

空调系统显然是与服务器和networking设备分开的电路; 然而,其电力电缆与电力电缆共用导pipe,电力电缆运行到服务器所使用的墙上电源sockets。当AC接通或断开时,可能存在电压从一个电路感应到另一个电路的风险,因为它们并联彼此相当几米?

我和其中一位正在试图弄清楚发生了什么事的电工交谈,他说,虽然空调机组与服务器和其他系统是分开的,但两条电路实际上有着共同的中立 – 他认为可能会导致问题。 这是一个正常的configuration吗?或者在服务器机房中使用AC设备与敏感设备共享中性设备会被认为是不好的做法?

目前,这个问题已经自行消失了。 服务器已经停止了自发的重新启动,并且交换机重新上线,但是没有真正的改变,所以潜在的问题仍然存在,可能迟早会重新出现。

鉴于我们看到在这些情节中,有多个系统有单独的电池备份单元重新启动,除了电源浪涌或峰值之外,还有什么可能的解释?

虽然不是直接的“这是你问题”的答案,你希望,这是我的build议。

看起来,贵族虽然高尚,但是找出错误的追求不会很快得到解决。

你可以像其他人一样build议,并尝试logging任何你能做的事情,希望有一个模式出现。

我喜欢德罗伯特的build议,聘请人来衡量电力质量…

但是,这是我已经完成的实际build议。 把它交给电工。

认真。 一个合格的电工(即使你必须外包)应该能够给你的根本原因, 如果它是电性的或不是。 他们可以testing每个电路,以确保它们没有过载(特别是尖峰/启动),他们可以确保接线是足够的,并且电路的尺寸正确,因为你正在连接到它们。 等等

大多数情况下,IT没有自己的合格电工,我们常常喜欢“插电”,不知道我们是否使用正确的电路,平衡电路等。

如果您的UPS支持日志收集,我会这样做,如果没有别的帮助certificate问题。 虽然您的UPS可能不够高,无法正确(快速)补偿峰值/谷值,但这并不意味着它是根本原因。 这听起来像是电力问题。 如果你正在运行一个漂亮的在线式UPS,并且它似乎正在补偿input电压(根据它的日志),那么奇怪的是,所有的IT设备插入它和读卡器系统在同一时间重新启动。

和老板交谈,就需要专业电工来诊断问题来解释这个问题。 期望电工设置BGP路由是不公平的,相反,不要指望系统pipe理员是合格的电工。