高CPU系统时间未知的性质

环境：
英特尔服务器主板S2600GZ
2个Intel Xeon CPU E5-2620
128GB DDR3内存
带有四个ST2000NM0033-9ZM175 SATA磁盘的英特尔RAID控制器RS25DB080（LSI SAS2208）
Ubuntu 12.04.5 LTS / Linux 3.11.0-26-generic x86_64

我们在前面提到的控制器上安装了一个4TB的硬件RAID10卷，并安装了一个Ubuntu服务器操作系统。此服务器是轻微负载（适度活动的GlusterFS副本块和less量备份KVM / qemu虚拟机）下的“热备份”。

当磁盘负载增加时（一些虚拟机占据主要angular色，重新启动或GlusterFS卷活动增加），我们有时会得到CPU系统时间和高负载平均值的突发。 htop也不iotop揭露罪魁祸首。 irq和softirq值是正常的。通常我们试图减less磁盘负载，最终CPU系统时间慢慢变成正常。但是直到所有这一切再次发生。

我们实际上怀疑存储子系统 ，但不知道究竟是什么错误。 MegaCli -PDList -aALL报告磁盘没有问题， MegaCli -AdpEventLog -GetSinceReboot -f lsi-events.log -aALL报告没有典型的错误，音量状态总是optimal 。 smartctl也不报告任何硬盘的SMART问题。情况不断出现已经超过六个月，上述报告都没有改变 – 所有的系统似乎是健康的。

所以，这是问题。所描述的问题是否有可能是由故障的RAID控制器造成的？或者更有可能其中一个磁盘正在死亡，其SMART子系统和控制器固件神秘地无法检测到它？在后一种情况下，我们如何识别磁盘？或者我们怎么能确认这是控制器的故障，所以更换它将是有保证的？也许还有其他build议？

真？？？？

我得到了同样的问题2年一去2服务器，所以我不信任使用内部RAID控制器为此，一个星期后，我select了划伤和重新安装使用软件RAID（你总是安全）。 2年后，没有问题，他们完美的作品。当然，我的客户花了很多钱，但是我从一开始就不同意他和其他硬件供应商的合作。

看一看..

dmidecode -t 2

 SMBIOS 2.6 present. Handle 0x0002, DMI type 2, 15 bytes Base Board Information Manufacturer: Intel Corporation Product Name: S2600GZ Version: G11481-354 Serial Number: QSGR34501185 Asset Tag: .................... Features: Board is a hosting board Board is replaceable Location In Chassis: To be filled by OEM Chassis Handle: 0x0003 Type: Motherboard Contained Object Handles: 0