假设我正在设置一台机器服务器。 在不知道其中的特定组件的情况下(以及能够查找其MTBF),服务器中硬件组件的典型相对故障率是多less?
同样地,企业使用的所有服务器中最经常更换的组件的排名是什么?
关于硬盘,很多人误解MTBF,认为一个平均10万小时MTBF的硬盘平均可以维持11.5年。 制造商的意思是,在大量驱动器的集合中,N在其整个生命周期内,每一个驱动器将会logging每100,000小时。 如果您有100,000个驱动器,每个驱动器的平均故障间隔时间为100,000小时,那么您应该期望驱动器平均每小时发生故障。
硬盘驱动器比人们所期望的更经常失败。 备份,备份,备份。
任何有移动部件的东西都会失败,包括磁带驱动器,软盘驱动器,风扇等等。 我已经让显卡上的风扇死机,导致显卡死亡。 我有电源风扇死亡,导致大部分电脑部件死亡。 (从此以后,我从来没有build立一个没有额外风扇的系统。)磁带驱动器需要额外的照顾,否则他们的寿命将大大缩短。 这是因为它不仅移动,而且磁带头与磁带介质物理接触 – 至less在多种磁带驱动器中。 用普通的磁带清洁介质经常清理驱动器会磨损磁头。
我有内置芯片组风扇死亡,但迄今为止没有任何影响。 到目前为止,我从来没有一个CPU风扇死亡,但我倾向于经常升级,我可能通过升级避免这种情况。 (GRIN)
我每隔几年更换我的磁盘驱动器(主要是因为可用容量增加得太快),所以经历了相对较less的硬盘驱动器故障。 我有很多电源故障 – 比我以前天真地期望的除了风扇之外没有移动部件的部件还要多。 我认为电力违规是许多电力供应失败的原因。
到目前为止,在几十年的计算中,除非有合理的原因,例如过热(风扇死亡),否则我从来没有CPU或RAM或主板故障。 然而,多年来less数几个品牌的主板由于次要部件的寿命比预期的要短得多,往往电源进入主板的电容器通常是不正确的。
任何你有一个插入式连接是一个失败点。 由于便宜的镀锡连接器,我的电脑出现故障(大部分时间很久以前)。 锡氧化和随着时间的推移连接,因为越来越less的可靠性。 最后,我拔掉了所有的东西,拿起一个橡皮擦到锡连接器去除了氧化,把所有的东西都堵回去了,而且还长了一段时间。 黄金连接器是select连接器的原因。
从我在企业环境中看到的情况来看,在我的家庭经历过混杂的情况下,组件似乎按照这个顺序从最多到最不经常的顺序失败。
上面没有提到,但是根据使用频率的不同,您应该预期所有闪存棒/卡最终都会死亡。 但是考虑到平均使用大多数这样的卡片需要很长时间。 闪存“耗尽”,使用和存储单元将最终失败。
有趣的是, 电池 。
我没有硬数据,但是我已经取代了我生命中比其他任何组件更多失败或者性能不佳的电池。 这包括不间断电源,笔记本电脑/笔记本电脑,控制器电池,手机电池,可能还有很多其他的。
这导致我总是为服务器机房的UPS备用电池组。
任何移动的东西,在服务器中基本上都是硬盘驱动器和风扇,将比固态组件更经常失败。 电源是一个遥远,但值得注意的第二个。 其他的一切(CPU,内存等)都是非常可靠的…这不是说免于失败,但绝对应该担心你的磁盘/粉丝/基地覆盖后。
尽pipe如此,最好还是保留所有东西的备件,除非硬件供应商决定给你提供任何停机时间。
就在今天为我的公司研究这个问题之后,我在extremetech.com上发现了一个微软的白皮书, 总结了这个8个月的图表:
戴尔的硬件保证(我们只是投资额外的硬件,而不是我们的计算)的额定值是一个体面的参考。
完整的白皮书在这里: http ://research.microsoft.com/apps/pubs/default.aspx?id= 144888
您会发现硬件的固件和驱动程序会出现更多的问题,而实际上您会发现物理故障(至less在设备使用寿命早期),因此请确保它们是最新的,然后再进行testing。
SATA驱动器通常是第一个去的。 SAS往往更可靠。 (虽然我听说过最新的SATA 2硬盘的好处)
曾几何时,CPU粉丝也曾经在名单上; 最近,我不记得上一次看到一站式的工作,但这是一种可能性,特别是在尘土飞扬的环境中。
Google发表了一篇论文“大型磁盘驱动器人群的失败趋势” ,介绍了大量驱动器的故障统计数据。 主要原因是磁盘超出了MTBF所build议的范围。 磁盘容易在服务器机房中最容易出错。