HP ProCurve 5412zl在连接到UPS时发生电源故障时进行热靴启动

我的客户的HP ProCurve 5412zl机箱交换机有时会重新启动,尽pipe通过四个冗余电源和UPS保护进行连接。

这些重新启动通常发生在实际停电或欠压或低压事件期间。 所有连接到UPS的设备都保持着,除了交换机。

机架的UPS是带有降压变压器的APC SmartUPS SUA3000XL 208V。 此交换机为整个设施的电话和接入点提供PoE。 电池是健康的,最近更换,并充满电。

这些信号灯具有重启设备中的所有电话并将用户从会话中断开的效果。 这是破坏性的。

在交换机日志中:

Keys: W=Warning I=Information M=Major D=Debug E=Error ---- Event Log listing: Events Since Boot ---- I 02/17/16 22:26:31 03802 chassis: System Self test started on Master I 02/17/16 22:26:31 03803 chassis: System Self test completed on Master I 02/17/16 22:26:35 00061 system: ----------------------------------------- I 02/17/16 22:26:35 00062 system: Mgmt Module 1 went down without saving crash information M 02/17/16 22:26:35 03001 system: System reboot due to Power Failure 

和版本信息:

 valley-core# sh version Image stamp: /ws/swbuildm/rel_orlando_qaoff/code/build/btm(swbuildm_rel_orlando_qaoff_rel_orlando) Nov 19 2014 15:17:26 K.15.16.0005 335 Boot Image: Secondary 

多年来,我没有意识到您必须修改此交换机型号的电源设置,但本机正确configuration以利用多个PSU。

 valley-core# sh power-over-ethernet Status and Counters - System Power Status System Power Status : Full redundancy PoE Power Status : Full redundancy Chassis power-over-ethernet: Total Available Power : 600 W Total Failover Power : 600 W Total Redundancy Power : 600 W Total Used Power : 359 W +/- 6W Total Remaining Power : 241 W Internal Power Main Power PS (Watts) Status ----- ------------- --------------------- 1 300 POE+ Connected 2 300 POE+ Connected 3 300 POE+ Connected 4 300 POE+ Connected External Power EPS1 /Not Connected. EPS2 /Not Connected. 

其他PSU信息:

 valley-core# sh system power-consumption Slot Power Usage: Slot Module Description Current Power ----- ----------------------------------------- --------------- A HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W B HP J9536A 20p GT PoE+/2p SFP+ v2 zl Mod 23 W C HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W D HP J9534A 24p Gig-T PoE+ v2 zl Module 19 W E HP J9534A 24p Gig-T PoE+ v2 zl Module 17 W F HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W G HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W H HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W K HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W L HP J9534A 24p Gig-T PoE+ v2 zl Module 19 W valley-core# sh system power-supply Power Supply Status: PS# Model State AC/DC + V Wattage ---- --------- ------------- ----------------- --------- 1 Unknwn Powered AC 120V 875 2 Unknwn Powered AC 120V 875 3 Unknwn Powered AC 120V 875 4 Unknwn Powered AC 120V 875 4 / 4 supply bays delivering power. Total power: 3500 W 

唯一的特点是交换机是唯一的设备失电。 尽pipe使用相同的电池或PDU,但连接的服务器都没有电力问题。

我可以承认,在这个位置的权力是穷人,并遭受电压骤降和偶尔的高峰。 但是在最近的热启动中,UPS甚至没有logging故障。

我有另一个5412zl在一个无关的客户,曾经多次做同样的事情。

有什么想法,我可以做什么呢? 我是否应该尝试将其中两个PSU转换为公用电源而不是UPS上的所有电源?


编辑:

引导历史显示:

谷核心#引导历史

 Mgmt Module 1 -- Saved Crash Information (most recent first): ============================================================= ID: 29008d6a Active system went down: 02/01/16 09:23:54 K.15.16.0005 335 Switch rebooting due to temporary loss of power or low voltage ID: 994a405a Active system went down: 12/14/15 11:31:15 K.15.16.0005 335 switch rebooting due to temporary loss of power or low voltage 

以前的固件版本的惠普更改说明说:

电源(CR_0000112424) – 当交换机暴露于交stream电源波动且电压下降太低时,交换机会重新启动,并生成一条错误消息,指出交换机崩溃。 通过此修复程序,错误消息更改为“由于暂时断电或低电压而切换重新启动”。

这与这个技术说明是一致的。

我的最初和直接的想法是沿着你正在考虑的线路。 如果这些信号出现独立于您在UPS上设置的任何自检时间表(如果在开启自检的过程中发生了一定比例的时间,那么您有UPS /变压器/负载问题),I做你的build议。 将几个PSU移动到不同的馈送处,然后查看是否出现重复。 如果他们这样做 – 而且我不是这么轻言轻描淡写的话 – 与惠普公司开个案。 这可能是一个痛苦的,乏味的过程。 但是,他们可能有助于提供指导,从交换机中获取真正的debugging信息。 我也花了一点时间来检查交换机当前固件版本的发行说明/错误列表。

根据此页面 ,您的UPS系列是“在线交互”型。 这个名称意味着它不会不断地将市电转换为直stream电再次转换到市电电平。 相反,它只是坐在那里监视电源,并保持电池充电。 input电源直通,虽然它可能会通过一些扼stream圈和一个浪涌保护装置,为了额外的安全。

当市电停电或电压跌落时,UPS需要将逆变器切换到电路中,开始向连接的设备供电。 不pipe这种切换是如何完成的(这将是一个物理或固态继电器),你总会看到一个几毫秒的“差距”。 而且,UPS的逆变器可能不会与市电同相,所以交stream波形跳跃到新的阶段。

大多数设备并不关心input电源是否会丢失几毫秒。 电源中的电容器通常足够大,可以顺利地跨过小间隙。 我见过许多服务器和networking设备需要几个完整的错过周期,没有太多的小故障。

我的怀疑是这个交换机的PSU比大多数都要重要。 我认为你的问题可以通过让另一个UPS(连续地在AC-DC-AC转换中)运行开关来解决。 这种types的UPS通常被称为“在线”,尽pipe您应该与您的供应商联系以确认您获得了正确的types。

随着刚刚在编辑中添加的信息,它非常清晰。

想到两个可能的原因:

1)UPS在实际需要做工作时稍微降低输出电压,变化率足够陡,使得开关认为它处于低功耗状态。
之前我已经看到了这种情况。
唯一的补救措施是采取一些负载的UPS或得到一个更大的UPS。
在某些情况下:如果UPS有多个输出电路,重新分配负载可能会有所帮助。 理想情况下,每个电路应该或多或less具有相同的负载。 这可以最大限度地减less输出端的电压降。

2)另一种可能性虽然很less,但也适用于具有多个输出的UPS设备。 考虑到他们提供的交stream电的相位,输出可能不完全同步。
如果您的交换机的电源连接到多个具有相位差的电路,交换机内部的电源板可能会导致相同的问题。 在这种情况下,解决scheme完全相反:将所有东西放在同一条电路上。

交换机说有一个停电。 架空的灯光说,有停电。 我猜测没有力量,即使只是短暂的。 这与交换机无关,与UPS有关。

我会仔细检查交换机和UPS之间的电源线,确保它真的插在你认为的地方,也许把交换机放在不同的UPS上一段时间才能看到。 这可能是这个开关对电池切换比其他设备更敏感一些,尤其是考虑到它正在为所有的手机供电。 这可以加快速度。