硬复位链接exceptionEmask 0x50 SAct 0x0 SErr 0x4090800动作0xe冻结

以下情况:

一个高效的Linux Debian 7服务器,内核3.2.0-4-amd64 #1 SMP Debian 3.2.68-1+deb7u2 x86_64 GNU/Linux

制造商: Supermicro产品名称: X10SLL-F版本: 1.02

SATA控制器: Intel Corporation Lynx Point 6-port SATA Controller 1 [AHCI mode] (rev 04)

2个SSD,2个硬盘

每个驱动器都可以做Sata Rev3(6.0Gb / s)

 hdparm -I /dev/sd[ad]|egrep "Model|speed|Transport" Model Number: TOSHIBA THNSNH128GBST Transport: Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0 * Gen1 signaling speed (1.5Gb/s) * Gen2 signaling speed (3.0Gb/s) * Gen3 signaling speed (6.0Gb/s) * SMART Command Transport (SCT) feature set Model Number: TOSHIBA THNSNH128GBST Transport: Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0 * Gen1 signaling speed (1.5Gb/s) * Gen2 signaling speed (3.0Gb/s) * Gen3 signaling speed (6.0Gb/s) * SMART Command Transport (SCT) feature set Model Number: ST2000VX000-1CU164 Transport: Serial, SATA Rev 3.0 * Gen1 signaling speed (1.5Gb/s) * Gen2 signaling speed (3.0Gb/s) * Gen3 signaling speed (6.0Gb/s) * SMART Command Transport (SCT) feature set Model Number: ST2000VX000-1CU164 Transport: Serial, SATA Rev 3.0 * Gen1 signaling speed (1.5Gb/s) * Gen2 signaling speed (3.0Gb/s) * Gen3 signaling speed (6.0Gb/s) * SMART Command Transport (SCT) feature set 

内核消息(至less对我来说)提出了所有4个驱动器的问题,这导致我相信这是sata控制器可能有错。

 ata1: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen ata1: irq_stat 0x00400040, connection status changed ata1: SError: { HostInt PHYRdyChg 10B8B DevExch } ata1: hard resetting link ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen ata2: irq_stat 0x00400040, connection status changed ata2: SError: { HostInt PHYRdyChg 10B8B DevExch } ata2: hard resetting link ata4: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen ata4: irq_stat 0x00400040, connection status changed ata4: SError: { HostInt PHYRdyChg 10B8B DevExch } ata4: hard resetting link ata3: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen ata3: irq_stat 0x00400040, connection status changed ata3: SError: { HostInt PHYRdyChg 10B8B DevExch } ata3: hard resetting link ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310) ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310) ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310) ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310) ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata2.00: configured for UDMA/33 ata2: EH complete ata1.00: configured for UDMA/33 ata1: EH complete ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata3.00: configured for UDMA/33 ata3: EH complete ata4.00: configured for UDMA/33 ata4: EH complete 

我已经弄清楚了(或者相信已经弄清楚了)

命令SECURITY FREEZE LOCKDEVICE CONFIGURATION OVERLAY对于这个问题并不重要。

在阅读大约20个错误报告和大量文件的同时,有一些人build议closuresNCQ,这是我做的。

首先对于一个设备,等待1天后,检查错误是否重复发生,我禁用了所有4个设备

 echo "1" >/sys/block/sdc/device/queue_depth 

情况没有明显变化。

https://ata.wiki.kernel.org/index.php/Libata_error_messages

https://wiki.archlinux.org/index.php/Solid_State_Drives#Resolving_NCQ_errors

其他人则build议使用SATA电缆,甚至是电路板和驱动器之间的不兼容。

然而,因为我似乎有一个驱动器上的问题,并填充到所有4,或有问题直接在所有4个设备上,我无法进一步查明问题。

因为这是一个生产服务器把这个服务器停机维护(又名bios /内核参数的变化)是可能的,但我喜欢,如果可能的话,以防止。

根据主机托pipe,这可能是与电源pipe理相关的:

https://bugzilla.kernel.org/show_bug.cgi?id=74961 https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1318218

 echo "medium_power" >/sys/class/scsi_host/host0/link_power_management_policy 

在更改之前,这被设置为max_performance

这也没有帮助。

HDD / SDD的智能值是可以的,没什么太明显的。

请注意,UDMA价值似乎只有33现在。

在服务器启动时,这是sata链接速度值:

 [ 3.161850] ata6: SATA link down (SStatus 0 SControl 300) [ 3.161867] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300) [ 3.161882] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300) [ 3.161894] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300) [ 3.161907] ata5: SATA link down (SStatus 0 SControl 300) 

这种情况可能发生在硬盘上的高负载,我没有testing,因为它会明显影响服务器的性能。

SSD上没有任何负载,它们已经安装,但没有被任何进程使用。

RAM是ECC,据我所知。

 dmidecode -t 17 # dmidecode 2.11 SMBIOS 2.7 present. Handle 0x0023, DMI type 17, 34 bytes Memory Device Array Handle: 0x0022 Error Information Handle: Not Provided Total Width: 72 bits Data Width: 64 bits Size: 8192 MB Form Factor: DIMM Set: None Locator: P1-DIMMA1 Bank Locator: P0_Node0_Channel0_Dimm0 Type: DDR3 Type Detail: Synchronous Speed: 1600 MHz Manufacturer: Samsung Serial Number: 373A6427 Asset Tag: 9876543210 Part Number: M391B1G73QH0-CK0 Rank: 2 Configured Clock Speed: 1600 MHz 

请让我知道,如果我可以提供更多的信息,因为我缺乏什么想法接下来做什么。

据Supermicro支持,缺陷在于板子:

引用:

 This board may need ECO 16238 update. 

您的服务器体验基本上是在与驱动器通信出现问题之后以较低的链接速度进行SATA重新协商。

这些因素可以在这里工作(按概率sorting)

  1. 非常高延迟的IOPS操作(例如:由SSD控制器的垃圾收集导致)导致SATA命令超时。 你的硬盘是否支持SATA Trim命令? 如果是这样,请尝试运行fstrim / 。 它会改变什么吗?
  2. 坏主板/内存:是你的内存ECC保护? 如果没有,如果可以的话,运行一个扩展的(2+小时)memtest86 +testing会话
  3. 硬件/软件驱动程序不兼容
  4. 错误的SATA控制器:虽然不太可能,你不能完全排除它
  5. 坏SATA电缆/驱动器:因为所有四个驱动器给你的问题,这是不太可能的