如何解决间歇性的服务器挂起？写入（和读取）磁盘完全停止

我们有一个LAMP服务器约6个月。 CentOS 7.0

它在没有重启的情况下跑了三个月，然后挂了。

然后运行在未来2个月（也不停止没有重新启动），然后再次挂起。

然后它运行了14天然后它挂起。

每次挂起后，我们不得不重新启动服务器。我们没有添加/更新任何系统软件。

在所有这些情况下挂起症状是相同的：

写入（和读取）磁盘完全停止。

Web服务器和MySQL数据库停止工作。我们无法通过物理控制台login或通过ssh远程login。

但是，当这个挂起发生时，我已经打开远程ssh shell会话与Linux“顶部”和“mytop”命令运行，这些工作（刷新），直到服务器重新启动。

所以这certificate服务器并没有完全冻结。有些软件还在运行。

服务器无法正常重启。

我在日志中找不到任何东西。所有日志同时停止。

在物理控制台（KVM）挂起时发生的最后一项是Adaptec RAID控制器提到的错误。请参阅以下内容：

00001 [1143965.194144) 0000000000000246 000000014423ecb4 1111880869b6b740 ffff880000c 00040 00040 [1143965.194786] Call Trace: [1143965.195044] [<Ifffffffa007f46b>] aac_fib_send+0x3db/8x510 [aacraid] [1143965.195307] [<ffffffffa00794d8>] aac_get_adapter_info+0xc8/8xb70 [aacraid] [1143965.195573] [<ffffffffa007e990>] _aac_reset_adapter+0x430/0x620 [aacraid] [1143965.195573] [<ffffffffa007e990>] _aac_reset_adapter+0x430/0x620 [aacraid] [1143965.195838] [<ffffffffa0071a79>] aac_reset_adapter+0xa9/0x290 [aacraid] [1143965.196101] [<ffffffffa0076214>] aac_eh_reset+Oxla4/0xle0 [aacraid] [1143965.196368] [<ffffffff813d6d83>] scsi_try_host_reset+0x43/0x100 [1143965.196628] [<ffffffff813d812,17>] scsi_eh_ready_devs+0x887/0xc20 [1143965.196889] [<ffffffff813da43c>] scsi_error_handler+0x52c/8x820 [1143965.197151] [<ffffffff813d9110>] ? scsi_eh_get_sense+0x2a0/0x2a0 [1143965.197415] [<1111111181085aff>] kthread+0xcf/8xe0 [1143965.197675] [<1111111181085a30>] ? kthread_create_on_node+0x140/0x140 [1143965.197939] [<111111118151316c>] ret_from_fork+Ox7c/OxbO [1143965.198200] [<1111111181085a30>] ? kthread_create_on_node+0x140/0x140 [1143965.198461] Code: 48 c? 87 b8 00 00 00 00 30 08 a0 5d c3 Al 11 84 00 00 00 00 00 Of 11 44 00 00 55 48 8b 87 90 01 00 00 48 89 e5 8b 80 be 00 00 00 <a8> 04 75 14 f6 c4 01 75 14 25 80 00 00 00 83 f8 01 19 c0 83 e0 00 00 Of 11 44 00 00 55 48 8b 87 90 01 00 00 48 89 e5 8b 80 be 00 00 00 <a8> 04 75 14 f6 c4 01 75 14 25 80 00 00 00 83 f8 01 19 c0 83 e0 75 14 f6 c4 01 75 14 25 80 00 00 00 83 f8 01 19 c0 83 e0 [1143974.082729] aacraid: aac_fib_send: first asynchronous command timed out. [1143974.082729] Usually a result of a PCI interrupt routing problem; [1143974.082729] update mother board BIOS or consider utilizing one of [1143974.082729] the SAFE mode kernel options (acpi, apic etc)

我们更换了RAID控制器卡，但没有解决问题，我们再次挂上了一个相同症状的服务器。

我现在有一个远程的ssh shell一直运行着“dmesg -wH”，希望能够在挂起再次发生时捕获更多的dmesg日志。

服务器有一个Adaptec RAID卡，RAID 1中有两个SATA SSD 960GB，RAID 1中两个SATA 500 GB HDD。

SMART属性适用于所有驱动器。

有什么build议？

编辑＃1 9/13/2015：
所有分区都有足够的可用空间。
日志正在旋转。

编辑＃2 9/13/2015：
RAID控制器：Adaptec ASR71605
BIOS：7.5-0（32069）
固件：7.5-0（32069）
驱动程序：1.2-0（30300）
启动Flash：7.5-0（32069）

解决scheme是使用Adaptec自带的驱动程序（可以从他们的站点下载），而不是CentOS附带的开源驱动程序。该服务器运行了大约11个月的Adaptec驱动程序（然后服务器挂起不明原因），这是一个从开源驱动程序14天正常运行时间的巨大改善。

如何解决间歇性的服务器挂起？ 写入（和读取）磁盘完全停止

如何解决间歇性的服务器挂起？写入（和读取）磁盘完全停止