平均无故障时间可能难以解释,但是如果您有一些硬数据,则可以使用大量的统计方法。
麻烦的是,没有人再报告他们的MTBF号码。 (无论如何,硬盘制造商除外)
你去哪里去找组件和服务器的MTBF数据?
为什么MTBF无关紧要
失败次数之间的平均时间不像不可纠正的错误率那么重要。 MTBF处理零件的完全故障,阅读驱动器。 但是,如果单个位出现错误将导致RAID 5出现故障并使热备份发挥作用,那么这个数字就毫无意义。
虽然近年来专业级和消费级驱动器的MTBF增加了一个数量级,但不可纠正的错误率却保持相对稳定。 据估计,这个速率为10 ^ 14位,所以对于消费类SATA驱动器来说,每读取12 TB的数据就有一个位。
为什么你应该放松对RAID 5arrays的睡眠
所以,这只是一个品牌打新的2TB驱动器的6个通行证。 阅读12TB的数据需要多长时间? 该驱动器的MTBF时间要less很多。
http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/
更值得关注的是在由大型驱动器组成的RAID 5arrays上发生双重读取失败的可能性。 使用7个1Tb驱动器的RAID 5arrays,在重buildRAID的过程中,一秒钟读取失败的可能性是50%。
人们认为MTBF数字不适用于复杂的系统是一种耻辱。 真正的问题(afaik)是制造商没有硬件模块的MTBF数字。 这些都是应该有所有权利的数字。 戴尔说“戴尔不再列出他们的服务器的特定MTBF”。 实际上是残酷的! 他们可能会说:“我们的东西真的不够可靠,无法用于需要MTBF数据的地方”。
可靠性工程师(或戴帽子的人)应该限制可用性研究的范围。 这通常仅限于硬件模块。
至于什么构成失败的分类…那么这就是为什么我们进行FMECA分析。
当然系统是复杂的,故障模式包括软件故障,但这通常不是本研究的范围。 我们希望硬件MTBF数字。 要求你的推销员提供这个。 这是他们的技术责任提供给你…如果他们拒绝或旁边的步骤,去哪里有电信级服务器与硬件要求的可用性数字。
我已经在公司支持网站上看到了MTBF的报告。 与您的销售人员或SE联系以获取信息。
在我看来,MTBF数字已经成为销售工具。 现代硬件已经达到了MTBF数字基本无用的状态。 即使是最低端的小球厂商也在生产硬件,这比任何明智的升级周期都要快。 如您所知,没有人报告MTBF数字。 我相信这是原因。
不幸的是,在现代服务器中,MTBF并不是一个实用或可靠的测量。 MTBF的全部概念是,如果一个特定的模型/configuration被许多人长期使用,我们就可能知道它的可靠性。
今天,我们大多数人高兴地交换潜在的额外的可靠性,以certificate额外的性能和能源效率。 例如,您是否会在18-24个月的硬件上构build新的服务器,仅仅是因为它certificate了它的可靠性? 或只是去与核心,马力和能源效率更高的上一代CPU?
而且,与老派电话系统不同,系统是相当定制的,当然,它们严重依赖于软件。 BIOS版本x.xx或驱动程序版本y.yyy有多可靠? 最新的操作系统/数据库/应用程序服务器补丁是否增加稳定性还是具有稳定性回归? 世界上有多less台服务器实际上使用与您相同的硬件/堆栈版本?
如果您需要高可用性,您无论如何都需要为您的系统添加冗余(双重任务,集群,热备份,DRP,您有什么)。 因此,每个硬件组件的相对可靠性通常不是一个重要的因素,因为您构build的基础架构能够承受单个组件的故障。 只是生活的不确定性(可靠性是追溯),并相应地计划。
我同意大部分其他答案:MTBF号码对我没有用,我从不检查它们。
唯一的例外是硬盘驱动器,但即使在那里,我也只能以非常粗糙的方式来看待MTBF,如果有select的话,一定要购买更可靠的“服务器级”驱动器。