在我们设置的IBM服务器上,我们遇到了数据不一致的问题,其中包含6个运行RAID 6的IBM RAID控制器的1TB SAS驱动器。我将其订阅到故障驱动器,只有RAID控制器不是没有报告任何问题。 文件系统(所有ext3)已经被OS(Open Suse 11)以只读模式重新安装了几次,然后服务器必须重新启动,重新启动,然后重新启动。 有什么想法可能是错的?
控制器和驱动器的固件应设置为最新或最稳定(您可以向IBM技术支持部门索取版本号和下载链接)
另外,ext3的文件大小和分区大小都是有限的。 看看http://en.wikipedia.org/wiki/Ext3 ,以确保你没有过度使用FS。
此外,基于LSI的控制器曾经被限制为2Tb的逻辑磁盘大小,这是用最近的固件解决的。 您可能正在使用对于大型逻辑磁盘大小不太稳定的早期固件。
RAID 6引擎是相当新的,可能是一个固件的bug。 硬件工程师并不总是最好的软件开发人员。
我会通过首先构build一个JBOD来排除故障。 然后展开到RAID 5,6。如果事实certificate是硬件RAID引擎,则可以使用软件RAID。
就我个人而言,我不喜欢RAID 3+。 与RAID 10相比,您可以获得更多的空间或更多的可用性,从而实现小写入的4倍性能和驱动器故障的恢复。
您正在使用LSI SAS控制器吗?
我们遇到了一个问题,即任何SMART活动(testing,状态等)都会导致控制器重置。 这将设置磁盘故障并降低RAID。
尝试禁用像smartctl,hddtemp等东西。基本上禁用任何使用SMART
可能是服务器悄悄地破坏RAID组。 如果例如有错误的总线可能。 syslog / dmesg通常会在失败时提及APIC和/或Interupts问题。