与硬盘故障相比,电源故障有多普遍?

我的networking主机为专用服务器提供两种不同types的高可用性选项:

  1. 冗余硬盘(RAID1)

  2. 冗余硬盘(RAID1)加上冗余电源

电源故障与硬盘故障相比有多普遍? 我知道在不知道确切的硬件的情况下不可能知道确切的数字,但是现在的数据对于我来说足够好。

谢谢,

阿德里安

我通常看到硬盘驱动器比电源供应器要多得多。 在任何一年,我都可能会更换20到30个硬盘,也许只有3到4个电源。 有一点需要注意的是冗余电源,如果它们冗余的话,那么如果它们是负载平衡+冗余的话那就太棒了。 除了一对直接闪电击中,在不同的客户,我从来不必担心冗余/负载平衡电源坏了。 Theres关于负载平衡的事情得到完成,确实有助于保持电源的健康。 在更换负载均衡的电源之前,我经常更换整个服务器。

这里最重要的因素之一就是在电力供应之前调节电力。 服务器types的硬件往往受到UPS的保护,这通常似乎延长了电源的使用寿命,因为它得到一个更清洁的正弦波,一般遭受的打嗝等less得多。大多数时候,电源(大部分风扇)在服务器将在服务器被重新启动时失败。 多年来不间断运行的电源和风扇,一旦断电就会突然放弃,并拒绝电源恢复供电。 如果电源仍处于活动状态时发生故障,则可能导致服务器看似随机冻结或以其他方式动作,并停止响应。

硬盘似乎随机失败,很less或根本没有通知。 RAID1是一个体面的解决scheme(RAID6更好,你的驱动器可以获得更多容量,并且可以同时承受两次故障)。 RAID的问题是你需要有相同的驱动器来replace失败的驱动器,事实上很难find它们,所以build议你购买replace的驱动器和原来的驱动器,让它们在手边。 当从networking主机租用专用服务器时,他们会声称已经这样做了,但是在某些时候,他们将用不同的驱动器构build新的服务器,并最终耗尽arrays所使用的驱动器,这可能意味着你运气不好当你的时间来临时热插拔。 此外,Google对硬盘进行了广泛的研究,他们发现硬盘要么几乎马上就要死(最初几个月左右),要么几年后死亡,但是同样的硬盘可能会在同一时间失败,这是RAID6显示了它的优势。 (缺点是需要更多的驱动器和更昂贵的控制器)

如果你能负担得起,得到一切。 如果你不能,你应该再次问自己,如果你真的不能承受。

在戴尔和惠普服务器的15年经验中,我可以告诉你,你可以测量每年失效的驱动器数量,而另一方面,你可以测量电源故障之间的年数。

任何时候都可能发生故障,而且在不知道电源和/或硬盘制造商的情况下,无法确定地知道。 即使知道数字 – 他们只是平均数 – 任何时候都可能发生失败。 您需要对选项进行评估,并决定是否值得花费。

这取决于你能承受多less停机时间。

如果单个硬盘出现故障,在RAID1中,您仍然在运行。

如果单个电源掉电,则服务器停机,直到更换电源。

是的,体面的数据中心的电源通常会持续很长时间,可能会超过服务器的使用寿命。 但它仍然是一个风险。 此外,还有一个问题,更换需要多长时间 – 数据中心堆叠备件,还是必须订购?

有这些东西的可用性估计。 我认为数据中心应该为您提供估计的价格上涨时间的百分比,而不是试图让您参与到如何实现它的技术讨论中。

但是,一般情况下,如果服务器从30分钟(如果数据中心堆放了耗材)意外停机达到3-5个工作日(或者订购和交付新产品所需的任何时间),则无需要额外的电源。 如果你不愿意的话,考虑一下,如果这个价格是对的,那么你已经做好了防范的准备。 一般来说,额外的电源不应该很昂贵。