监控硬盘健康的最佳策略是什么?

您使用什么策略来监视服务器硬盘的运行状况? 你安排一个自动chkdsk与报告? 你如何提醒失败?

在磁盘子系统中实际上有很多监视:

  • 文件系统运行状况:chkdisk或者fsdisk(文件系统与物理arrays的运行状况不一样,但是物理问题通常会导致FS损坏)。
  • RAID Health(RAID健康状况):包括RAIDconfiguration和RAID控制器上的电池状态。 例如有一个磁盘退出arrays,它重build?
  • 每个磁盘的预测性磁盘故障:请参阅SMART
  • 工作温度(不特别对磁盘,但重要)。
  • 最新的固件/驱动程序

您也可能想要监视磁盘子系统的性能:

  • 读/写操作的平均时间
  • 读/写的数量
  • 磁盘操作队列

像Nagios这样的系统有不同的插件,可以根据这些故障进行提示。 通常您需要戴尔openmanage或MegaCLI等实用程序来通过SNMP监控RAID的状态。 这些工具通常也可以提醒你自己,但这不是集中的。

大多数现代硬盘都有一个内置的监控SMART (维客)

有很多工具可以监视你的操作系统。

对于窗户看

活动@硬盘监视器免费软件只是一个起点

您的RAID控制器也可能内置了SMART监控function,所以如果是用于服务器的话,请在这里查看。

事件日志,WMI,SNMP。

大多数服务器级RAID控制器将包含用于启用Windows和其他操作系统中的一个或全部的软件。

电子邮件警报通常也是可用的。

我们每周或每天对RAID进行一致性检查,并进行定期备份。