在我们的商店,我们有nagios检查硬盘在linux服务器上的SMART状态,但到目前为止还没有真正有用:当我们收到SMART警报时,系统已经有问题了,所以我们已经知道了:)
然后,我们开发了一种惯例,在磁盘上定期运行智能背景自检( smartctl -t long ,在非高峰期),并手动跟踪这些数据。 我们logging磁盘型号和s / n,最后一次testing的date,重新分配的扇区的数量(我们通常试图用大于0的重新分配扇区来更改每个磁盘),以及磁盘累积的开机时间,这样我们可以知道看一眼我们的哪个磁盘比较老。
由于系统(以及磁盘)的数量正在增加,我们希望自动运行testing和收集结果。 在开始重新发明轮子之前,我开始寻找现有的解决scheme,但是我没有运气。
是否有任何软件可以在Linux下自动执行SMART自检和收集结果数据 – 或者将其集成到一些硬件库存pipe理系统中?
你是否已经通过SNMP轮询这些服务器? 如果是这样,如果代理基于net-snmp,则可以使用其“扩展”function(通过NET-SNMP-EXTEND-MIB)将任意脚本的结果填充到您select的OID中。
Centreon在他们的wiki上有一个很好的使用net-snmp监视SMART数据的 howto。
如果你还没有收集和存储SNMP, Cricket是服务器端的一个开源,轻量级的解决scheme,net-snmp代理在大多数类Unix上都支持。
smartd软件包中的smartd可以按计划运行自检,发生严重事件时发送电子邮件警报,并可以在指定的更改中运行指定的程序。 它还将日志的SMART属性更改logging到日志报告中包含的系统日志中(尽pipe报告不是机器友好的)。 有关此选项和其他选项,请参阅SMART工具的比较 。