我们有一个LAMP服务器约6个月。 CentOS 7.0
它在没有重启的情况下跑了三个月,然后挂了。
然后运行在未来2个月(也不停止没有重新启动),然后再次挂起。
然后它运行了14天然后它挂起。
然后它运行了14天然后它挂起。
每次挂起后,我们不得不重新启动服务器。 我们没有添加/更新任何系统软件。
在所有这些情况下挂起症状是相同的:
写入(和读取)磁盘完全停止。
Web服务器和MySQL数据库停止工作。 我们无法通过物理控制台login或通过ssh远程login。
但是,当这个挂起发生时,我已经打开远程ssh shell会话与Linux“顶部”和“mytop”命令运行,这些工作(刷新),直到服务器重新启动。
所以这certificate服务器并没有完全冻结。 有些软件还在运行。
服务器无法正常重启。
我在日志中找不到任何东西。 所有日志同时停止。
在物理控制台(KVM)挂起时发生的最后一项是Adaptec RAID控制器提到的错误。 请参阅以下内容:
00001 [1143965.194144) 0000000000000246 000000014423ecb4 1111880869b6b740 ffff880000c 00040 00040 [1143965.194786] Call Trace: [1143965.195044] [<Ifffffffa007f46b>] aac_fib_send+0x3db/8x510 [aacraid] [1143965.195307] [<ffffffffa00794d8>] aac_get_adapter_info+0xc8/8xb70 [aacraid] [1143965.195573] [<ffffffffa007e990>] _aac_reset_adapter+0x430/0x620 [aacraid] [1143965.195573] [<ffffffffa007e990>] _aac_reset_adapter+0x430/0x620 [aacraid] [1143965.195838] [<ffffffffa0071a79>] aac_reset_adapter+0xa9/0x290 [aacraid] [1143965.196101] [<ffffffffa0076214>] aac_eh_reset+Oxla4/0xle0 [aacraid] [1143965.196368] [<ffffffff813d6d83>] scsi_try_host_reset+0x43/0x100 [1143965.196628] [<ffffffff813d812,17>] scsi_eh_ready_devs+0x887/0xc20 [1143965.196889] [<ffffffff813da43c>] scsi_error_handler+0x52c/8x820 [1143965.197151] [<ffffffff813d9110>] ? scsi_eh_get_sense+0x2a0/0x2a0 [1143965.197415] [<1111111181085aff>] kthread+0xcf/8xe0 [1143965.197675] [<1111111181085a30>] ? kthread_create_on_node+0x140/0x140 [1143965.197939] [<111111118151316c>] ret_from_fork+Ox7c/OxbO [1143965.198200] [<1111111181085a30>] ? kthread_create_on_node+0x140/0x140 [1143965.198461] Code: 48 c? 87 b8 00 00 00 00 30 08 a0 5d c3 Al 11 84 00 00 00 00 00 Of 11 44 00 00 55 48 8b 87 90 01 00 00 48 89 e5 8b 80 be 00 00 00 <a8> 04 75 14 f6 c4 01 75 14 25 80 00 00 00 83 f8 01 19 c0 83 e0 00 00 Of 11 44 00 00 55 48 8b 87 90 01 00 00 48 89 e5 8b 80 be 00 00 00 <a8> 04 75 14 f6 c4 01 75 14 25 80 00 00 00 83 f8 01 19 c0 83 e0 75 14 f6 c4 01 75 14 25 80 00 00 00 83 f8 01 19 c0 83 e0 [1143974.082729] aacraid: aac_fib_send: first asynchronous command timed out. [1143974.082729] Usually a result of a PCI interrupt routing problem; [1143974.082729] update mother board BIOS or consider utilizing one of [1143974.082729] the SAFE mode kernel options (acpi, apic etc)
我们更换了RAID控制器卡,但没有解决问题,我们再次挂上了一个相同症状的服务器。
我现在有一个远程的ssh shell一直运行着“dmesg -wH”,希望能够在挂起再次发生时捕获更多的dmesg日志。
服务器有一个Adaptec RAID卡,RAID 1中有两个SATA SSD 960GB,RAID 1中两个SATA 500 GB HDD。
SMART属性适用于所有驱动器。
有什么build议?
编辑#1 9/13/2015:
所有分区都有足够的可用空间。
日志正在旋转。
编辑#2 9/13/2015:
RAID控制器:Adaptec ASR71605
BIOS:7.5-0(32069)
固件:7.5-0(32069)
驱动程序:1.2-0(30300)
启动Flash:7.5-0(32069)
解决scheme是使用Adaptec自带的驱动程序(可以从他们的站点下载),而不是CentOS附带的开源驱动程序。 该服务器运行了大约11个月的Adaptec驱动程序(然后服务器挂起不明原因),这是一个从开源驱动程序14天正常运行时间的巨大改善。