Centos软件RAID 1arrays中的一个驱动器不断消失

我有一对HP DL320e服务器,在软件RAID 1arrays中configuration了2个WD Red 6TB驱动器。

# cat /proc/mdstat Personalities : [raid1] md126 : active raid1 sda3[2] sdb3[1] 5859876672 blocks super 1.2 [2/2] [UU] bitmap: 0/44 pages [0KB], 65536KB chunk md127 : active raid1 sda2[3] sdb2[2] 511936 blocks super 1.0 [2/2] [UU] unused devices: <none> 

机器已经安装了大约6个星期,一般情况下运行良好,但是有几次一对驱动器从configuration中消失,系统报告驱动器被移除:

 # mdadm --detail /dev/md126 /dev/md126: Version : 1.0 Creation Time : Thu Feb 12 12:16:13 2015 Raid Level : raid1 Array Size : 511936 (500.02 MiB 524.22 MB) Used Dev Size : 511936 (500.02 MiB 524.22 MB) Raid Devices : 2 Total Devices : 1 Persistence : Superblock is persistent Update Time : Mon Apr 20 15:39:02 2015 State : clean, degraded Active Devices : 1 Working Devices : 1 Failed Devices : 0 Spare Devices : 0 Name : localhost:boot UUID : 60a3e4f7:793fbc3d:3f409985:5f619dea Events : 139 Number Major Minor RaidDevice State 2 8 2 0 active sync /dev/sda2 2 0 0 2 removed 

/ var / log / messages报告驱动器无法打开

 Apr 20 14:47:00 1 smartd[983]: Device: /dev/sda [SAT], open() failed: No such device 

两个驱动器看起来都很好,并且正在旋转 这些机器形成一个生产对,所以我没有做太多的实验。 第一次它发生我closures服务器并重新启动它,失败的驱动器保持失败,所以我再次closures它,删除驱动器,看起来很正常,重新插入并重新启动,驱动器显示正常后

 mdadm --manage /dev/md126 --add /dev/sda2 

…和其他文件系统的类似的命令RAIDarrays重新同步,一切恢复正常。

一台机器上的两个驱动器都发生了同样的事情,而今天另一台服务器与其中一个驱动器也做了同样的事情。 今天,我closures服务器,并删除电源线,以强制包括iLo,完全冷启动,我没有删除“失败”的驱动器,当机器出现设备是可见的,mdadm命令添加丢失的驱动器回来工作像之前一样。

我在消息日志或其他地方看不到其他东西。 今天的失败发生在系统重新启动之后,我手动进行了yum更新和重新启动,之前的失败发生在重新启动后发生的原因,我无法解释,当我不在办公室。

在故障状态下,RAIDarrays在降级模式下运行,系统正常运行,结果我没有遭受服务中断,但显然这是一个担心。

我对iLO不熟悉,但在iLO日志中看不到任何内容,只是注意到电源在无法解释的重新启动的时刻已经循环。

我正在运行Centos 7,4Gb内存,氙气4核3.1GHz与2个6TB磁盘。 所有的yum更新已被应用。

有没有人在DL320e上看过类似的东西?