更换硬盘

我想知道在一个(相当)系统关键的数据库服务器上使用一定的时间之后,在它死亡之前更换硬盘是不是一个好主意。

例如,我想在使用3年后更换硬盘。 由于我在服务器上有很多硬盘驱动器,所以我可以错开哪些硬盘驱动器被replace。

这是一个好主意,还是人们只是等待失败?

Google对磁盘驱动器进行了一项研究,发现磁盘使用时间与故障之间的相关性很小。 SMARTtesting也不会显示失败。

我的本地观察(> 500台服务器)是相似的。 我有新的磁盘快速失败,而旧的还在一起。

我的一般规则是如果我们看到磁盘问题(SMART或系统错误),我们立即replace它。 如果没有,那么当服务器运行时,驱动器会循环运行。

Google Study http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf

没有。

在活动的生产服务器上更换硬盘驱动器的最大问题之一是这样做会触发重build。 特别是在使用RAID5的情况下,特别是在使用大型驱动器的情况下,强制重build会造成无法恢复的故障。 在重build期间失去arrays的风险要远远大于让一个3岁的车手到位的风险。

举一个极端的例子,如果您连续更换由2TB磁盘组成的6磁盘RAID5arrays中的每个磁盘,则在重build过程中发生不可恢复的读取错误的理论风险在58%左右(根据我的餐巾math;请自己做,并比较说明)。 换句话说,您的“预防性”磁盘更换实际上只不过是一种破坏行为。

当我考虑在旧的服务器上刷新驱动器时,唯一的一次是“翻新”它的过程,例如在从一个任务中退役之后,以新angular色恢复服务之前。 即使在这一点上,容量和性能要求也比驱动器的年龄要重要得多。

我没有看到它。 我们保持服务器在保修期内,直到它们被停产 – 5年。 标准的RAID 5可以让您在磁盘出现故障的情况下幸免于难,所以我们只需要保留一些驱动器,这样我们就可以立即开始重build,而且在关键的服务器上,我们还包括一个热备份或RAID 10。

如果您注意到最近在服务器中有多个驱动器出现故障,则可能出现背板问题。 可能是来自附近施工的新的振动或灰尘。