高CPU系统时间未知的性质

环境:
英特尔服务器主板S2600GZ
2个Intel Xeon CPU E5-2620
128GB DDR3内存
带有四个ST2000NM0033-9ZM175 SATA磁盘的英特尔RAID控制器RS25DB080(LSI SAS2208)
Ubuntu 12.04.5 LTS / Linux 3.11.0-26-generic x86_64

我们在前面提到的控制器上安装了一个4TB的硬件RAID10卷,并安装了一个Ubuntu服务器操作系统。 此服务器是轻微负载(适度活动的GlusterFS副本块和less量备份KVM / qemu虚拟机)下的“热备份”。

当磁盘负载增加时(一些虚拟机占据主要angular色,重新启动或GlusterFS卷活动增加),我们有时会得到CPU系统时间和高负载平均值的突发。 htop也不iotop揭露罪魁祸首。 irq和softirq值是正常的。 通常我们试图减less磁盘负载,最终CPU系统时间慢慢变成正常。 但是直到所有这一切再次发生。

我们实际上怀疑存储子系统 ,但不知道究竟是什么错误。 MegaCli -PDList -aALL报告磁盘没有问题, MegaCli -AdpEventLog -GetSinceReboot -f lsi-events.log -aALL报告没有典型的错误,音量状态总是optimalsmartctl也不报告任何硬盘的SMART问题。 情况不断出现已经超过六个月,上述报告都没有改变 – 所有的系统似乎是健康的。

所以,这是问题。 所描述的问题是否有可能是由故障的RAID控制器造成的? 或者更有可能其中一个磁盘正在死亡,其SMART子系统和控制器固件神秘地无法检测到它? 在后一种情况下,我们如何识别磁盘? 或者我们怎么能确认这是控制器的故障,所以更换它将是有保证的? 也许还有其他build议?

真????

我得到了同样的问题2年一去2服务器,所以我不信任使用内部RAID控制器为此,一个星期后,我select了划伤和重新安装使用软件RAID(你总是安全)。 2年后,没有问题,他们完美的作品。 当然,我的客户花了很多钱,但是我从一开始就不同意他和其他硬件供应商的合作。

看一看..

dmidecode -t 2

 SMBIOS 2.6 present. Handle 0x0002, DMI type 2, 15 bytes Base Board Information Manufacturer: Intel Corporation Product Name: S2600GZ Version: G11481-354 Serial Number: QSGR34501185 Asset Tag: .................... Features: Board is a hosting board Board is replaceable Location In Chassis: To be filled by OEM Chassis Handle: 0x0003 Type: Motherboard Contained Object Handles: 0