硬盘驱动器的预防性维护

我有几台服务器（HP ProLiant DL380，DL360和DL120），它们都配有热备件，还有一些常规工作站和一些外置磁盘。

我想为这些系统创build预防性维护程序，并想知道哪个维护是可取的。

对于具有热备件的服务器，故障时更换硬盘是否足够？
对于正常的工作站和外部磁盘，是否有任何检查我可以检查硬盘的状态，或者可能需要一段时间来更换硬盘？还是只是在完成失败后从备份中恢复？

我在一个大型数据中心（64,000平方英尺）内pipe理数千台具有各种RAID设置的HP Prolient服务器。通常有两种情况我会在发生故障或预测故障时更换驱动器。然而，后者恕我直言，就像“在未来的某个时候，这个驱动器将会失败”。我听说与惠普通信或监控问题有关。

即使服务器有热备份，我build议你总是更换磁盘。我讨厌使用这个短语，但认为墨菲的法律。但是有一些事情浮现在脑海里。

惠普支持程度。你有和他们的合同吗？
盒子有多重要？
现场技术可达性。 CE可以快速到达吗？
惠普提供部分产品。
一个相当大的问题是部门预算。你能负担得起更换吗？

再一次，这些只是几个想到的事情。

至于预防措施，在ASHRAE（一篇快速博客文章）或制造规格内有一个良好的工作温度和湿度的干净环境是关于你可以做的最好的。另外，良好的监控能够很好地解决这些问题，因为它们可以减less停机时间。你可以看看Hp Insight 。就我个人而言，我远离惠普代理商，在HP SIM和内部售票系统的帮助下，严格监控集成照明（iLo）接口的服务器。

至于工作站，上述情况仍然适用。您不应该处于必须从备份中恢复的情况。而只需更换磁盘来replace它们是无法运行服务器/工作站。然后再次，我不pipe理工作站，所以这可能是矫枉过正。

对于具有热备件的服务器，故障时更换硬盘是否足够？

所以这些可能是相同的磁盘型号，甚至可能来自相同的制造批次。你有多自信每个人在不同的时间会失败？ OK，备用磁盘应该有一个非常不同的工作负载，这将有助于错开相对于保存实际数据的磁盘 – 这显然必须在RAIDarrays中 – 但是RAIDarrays是否支持超过1个磁盘的故障？

即，即使在文件系统仍然可用时，是否有适当的监视和警报来检测故障磁盘？

您可以通过捕获SMART警报主动监视磁盘运行状况 – 但是您不知道在这些系统上运行的是什么操作系统。运行定期表面扫描也是一个好主意（频率取决于数据的严重程度以及数据丢失会产生多less影响，但每月不会超过一次）。从RAID组中取出磁盘，然后重新整合，不需要停机。事实上，如果你做对了，那么没有性能影响。