我已经尝试了nagios的最佳插件SMART监控。 有一些,但只有监测温度。 但是通过smartctl,我们可以find更多的数据。 你有更好的插件与智能的所有数据?
check_ide_smart插件是标准的nagios插件组的一部分。 尽pipe名称中有“ide”部分,但它使用smartctl来检查smartctl支持的任何驱动器。
它可以返回适合nagios的输出,例如:
$ ./check_ide_smart -n -d /dev/sda OK - Operational (17/17 tests passed)
或完整的SMART状态:
$ ./check_ide_smart -d /dev/sda Id= 1, Status=11 {PreFailure , OnLine }, Value=100, Threshold= 16, Passed Id= 2, Status= 5 {PreFailure , OffLine}, Value=100, Threshold= 50, Passed Id= 3, Status= 7 {PreFailure , OnLine }, Value=120, Threshold= 24, Passed Id= 4, Status=18 {Advisory , OnLine }, Value=100, Threshold= 0, Passed Id= 5, Status=51 {PreFailure , OnLine }, Value=100, Threshold= 5, Passed Id= 7, Status=11 {PreFailure , OnLine }, Value=100, Threshold= 67, Passed Id= 8, Status= 5 {PreFailure , OffLine}, Value=100, Threshold= 20, Passed Id= 9, Status=18 {Advisory , OnLine }, Value= 96, Threshold= 0, Passed Id= 10, Status=19 {PreFailure , OnLine }, Value=100, Threshold= 60, Passed Id= 12, Status=50 {Advisory , OnLine }, Value=100, Threshold= 0, Passed Id=192, Status=50 {Advisory , OnLine }, Value= 99, Threshold= 50, Passed Id=193, Status=18 {Advisory , OnLine }, Value= 99, Threshold= 50, Passed Id=194, Status= 2 {Advisory , OnLine }, Value=144, Threshold= 0, Passed Id=196, Status=50 {Advisory , OnLine }, Value=100, Threshold= 0, Passed Id=197, Status=34 {Advisory , OnLine }, Value=100, Threshold= 0, Passed Id=198, Status= 8 {Advisory , OffLine}, Value=100, Threshold= 0, Passed Id=199, Status=10 {Advisory , OnLine }, Value=200, Threshold= 0, Passed OffLineStatus=0 {NeverStarted}, AutoOffLine=No, OffLineTimeout=30 minutes OffLineCapability=91 {Immediate Auto SuspendOnCmd} SmartRevision=16, CheckSum=23, SmartCapability=3 {SaveOnStandBy AutoSave}
我使用了插件:check_ide_smart; 但是,我最终发现,它没有通知我有关磁盘上的智能日志中的错误。
问题bug在5年后显然还是开放的?
#473 check_ide_smart忽略SMART错误! http://sourceforge.net/p/nagiosplug/bugs/473/
我现在在每个系统上启用一个更详细的smartd守护进程。 如果这个过程停止的话,那么我将会有nagios通知我。 我可能有另一个检查,如果没有运行在cron重新启动。
从smartd.conf:
第一个(主)ATA / IDE硬盘。 监控所有属性,启用自动在线数据采集,自动属性自动保存,并在每天凌晨2-3点之间开始短时自检,并在周六至凌晨3-4点之间进行长时间自检。 报告原始温度变化> = 5摄氏度
smartd.conf
DEVICECAN -H -m root -a -o on -S on -s(S /../.././ 02 / L /../../ 6/03)-W 5