客户刚刚经历了APC AP7911A开关/计量机架配电单元(PDU)的完全故障。 这显然把所有连接的设备都拿下来了。 设备是好的,以及上游UPS单位。
在多个供电/ PDU / UPS单元(例如,单电源交换机,缺乏高线供电等)的设备之间不能进行平衡的情况下,如何缓解这种故障? 这是一个单机架安装在一个不太理想的计算机房,但是对于大多数中小型企业来说是典型的。 应该针对单个PDU故障进行计划,还是只是在发生故障时才处理?
在服务器中的多个PSU是好的,但不是一个神奇的子弹。 通常情况下,与权力有关的事情,他们拿出周围的其他东西,例如。 你的冗余psus连接到的背板。 如果在单独的UPS上有两台服务器,则更有可能继续运行。
最重要的是在您的应用程序或平台层面上进行冗余工作,以便机器或机架可以在不出现问题的情况下外出,但是如果您没有达到预算,您仍然可以通过备件来减less风险准备换掉多余的设备,而且保持简单。 一个花哨的pipe理PDU比愚蠢的功率棒更可能下降。
另外值得注意的是,许多小企业根本无法以正确的方式做事,或者select以最廉价的方式做事情,如果事情发生的话会产生后果。 我看到没有经验的pipe理员为了避免以某种方式在这里或类似的网站上做某些事情,只是为了让事情变得更糟。 一个不太理想的解决scheme往往比没有好。
我已经处于完全相同的情况,我已经尽了最大努力在服务器集群中实现冗余,但是由于一个电源故障导致设备只有一个PSU失败。 有时单个PSU设备一直很关键,如备用DC,交换机或机柜风扇arrays。
我想到的最好的答案是使用具有**自动转换开关**(ATS)的PDU。 这使您可以将PDU连接到两个电源,如果发生故障,它将在两者之间切换,而不会停机。 这对于单个PSU设备来说是非常理想的,显然是因为它们保持不变。 ATS交换机通常有大约8个sockets,因此它可以有效地代替PDU。
对于数据中心内没有两个电源电路的典型SME情况,您可能有一个机架连接到一个UPS和主电源,或者通过两个UPS连接到主电源,这提供了良好的保护,否则您总是要赌博哪个PDU源将首先失败。 我也认为这些ATS交换机比标准PDU更有弹性,这样可以进一步减轻灾难。
对于一个单一的PSU的传统工具包,据我所知,就像你说的那样,只是在事情发生时才会被处理,但是绝对有计划的。
如果可能的话,我会记下这样设置的工具包,并计划失败,并期待它在一个点上。
我build议确保备份计划良好,运行良好,灾难恢复计划经过周密的考虑和定期testing。
当购买新的套件时,我会购买那些带有双PSU的服务器,并将每个服务器插入单独的UPS(如果需要,通过PDU)。 即使便宜的低端中小企业戴尔服务器也可以用双电源供电。
由于我们拥有多个数据中心,而且我们可以决定事情是如何运作的,而且我们使用刀片式服务器,所以我处于一个稍微不寻常的情况,但总的来说,我们有一半的电源设备连接到一个PDU,另一半连接到另一个PDU正是这个原因。 现在,通常两个PDU都在相同的非常大的PDU / UPS上,每个PDU服务于40个机架的多个半行。 因此,我们沿着行分割我们的集群,即,集群成员1在第一行的前20个机架之一,在第一行的第二个20机架中的编号2,在第二行的前20个机架中的编号3等等。如果我们失去了一个PSU,PDU,大PDU / UPS或整行(通过泛滥,火灾等),我们将覆盖这个方式。 但是正如我所说的那样,我猜这有点不同寻常,但希望对我们如何做的一些了解,我总是build议使用不同的PDU,但要确保您使用的是多个中央/大型PDU和UPS,出于安全原因(searchSF以前的交叉相位参数:))
如果您不能在机架上安装第二个PDU,则除了设置服务器之外,没有别的select,突然断电只能造成最小的损失。
但我在这里要诚实,前三个不会给你100%的保护。 随时准备从备份中恢复。