我的戴尔PowerEdge R210有问题。 机器与Centos 6,今天系统日志开始通知硬盘失败。
1月6日03:20:12 centos6内核:LSIdebugging日志信息31080000为通道0 ID 0
Jan 6 03:20:12 centos6 kernel:sd 0:1:0:0:[sda]未处理的检测代码
Jan 6 03:20:12 centos6 kernel:sd 0:1:0:0:[sda]结果:hostbyte =无效的driverbyte = DRIVER_SENSE
Jan 6 03:20:12 centos6 kernel:sd 0:1:0:0:[sda]感知键:中等错误[当前]
Jan 6 03:20:12 centos6 kernel:Info fld = 0x21a9055
Jan 6 03:20:12 centos6 kernel:sd 0:1:0:0:[sda] Add。 意义:未收回的读取错误
Jan 6 03:20:12 centos6 kernel:sd 0:1:0:0:[sda] CDB:Read(10):28 00 02 1a 90 20 00 00 38 00
Jan 6 03:22:17 centos6内核:mptbase:ioc0:LogInfo(0x31080000):Originator = {PL},Code = {SATA错误后的所有命令失败},子代码(0x0000)cb_idx mptscsih_io_done
1月6日03:22:17 centos6内核:LSIdebugging日志信息31080000为通道0 id 0
Jan 6 03:22:17 centos6内核:mptbase:ioc0:LogInfo(0x31080000):Originator = {PL},Code = {SATA错误后的所有命令失败},子代码(0x0000)cb_idx mptscsih_io_done
1月6日03:22:17 centos6内核:LSIdebugging日志信息31080000为通道0 id 0
Jan 6 03:22:17 centos6内核:mptbase:ioc0:LogInfo(0x31080000):Originator = {PL},Code = {SATA错误后的所有命令失败},子代码(0x0000)cb_idx mptscsih_io_done
1月6日03:22:17 centos6内核:LSIdebugging日志信息31080000为通道0 id 0
Jan 6 03:22:17 centos6内核:mptbase:ioc0:LogInfo(0x31080000):Originator = {PL},Code = {SATA错误后的所有命令失败},子代码(0x0000)cb_idx mptscsih_io_done
1月6日03:22:17 centos6内核:LSIdebugging日志信息31080000为通道0 id 0
Jan 6 03:22:17 centos6内核:mptbase:ioc0:LogInfo(0x31080000):Originator = {PL},Code = {SATA错误后的所有命令失败},子代码(0x0000)cb_idx mptscsih_io_done
1月6日03:22:17 centos6内核:LSIdebugging日志信息31080000为通道0 id 0
Jan 6 03:22:17 centos6 kernel:sd 0:1:0:0:[sda]未处理的检测代码
Jan 6 03:22:17 centos6 kernel:sd 0:1:0:0:[sda]结果:hostbyte =无效的driverbyte = DRIVER_SENSE
Jan 6 03:22:17 centos6 kernel:sd 0:1:0:0:[sda]感知键:中等错误[当前]
Jan 6 03:22:17 centos6 kernel:Info fld = 0x21a7d89
Jan 6 03:22:17 centos6 kernel:sd 0:1:0:0:[sda] Add。 意义:未收回的读取错误
Jan 6 03:22:17 centos6 kernel:sd 0:1:0:0:[sda] CDB:Read(10):28 00 02 1a 7d 80 00 00 18 00
Jan 6 03:22:19 centos6 kernel:sd 0:1:0:0:[sda]未处理的检测代码
Jan 6 03:22:19 centos6 kernel:sd 0:1:0:0:[sda]结果:hostbyte =无效的driverbyte = DRIVER_SENSE
Jan 6 03:22:19 centos6 kernel:sd 0:1:0:0:[sda] Sense Key:Medium Error [current]
Jan 6 03:22:19 centos6 kernel:Info fld = 0x21a7dc0
Jan 6 03:22:19 centos6 kernel:sd 0:1:0:0:[sda] Add。 意义:未收回的读取错误
Jan 6 03:22:19 centos6 kernel:sd 0:1:0:0:[sda] CDB:Read(10):28 00 02 1a 7d c0 00 00 80 00
Jan 6 03:28:05 centos6 kernel:sd 0:1:0:0:[sda]未处理的检测代码
Jan 6 03:28:05 centos6 kernel:sd 0:1:0:0:[sda]结果:hostbyte =无效的driverbyte = DRIVER_SENSE
Jan 6 03:28:05 centos6 kernel:sd 0:1:0:0:[sda]感知键:中等错误[当前]
Jan 6 03:28:05 centos6 kernel:Info fld = 0x21a7d88
Jan 6 03:28:05 centos6 kernel:sd 0:1:0:0:[sda] Add。 意义:未收回的读取错误
Jan 6 03:28:05 centos6 kernel:sd 0:1:0:0:[sda] CDB:Read(10):28 00 02 1a 7d 88 00 00 08 00
Jan 6 03:28:09 centos6 kernel:sd 0:1:0:0:[sda]未处理的检测代码
Jan 6 03:28:09 centos6 kernel:sd 0:1:0:0:[sda]结果:hostbyte =无效的driverbyte = DRIVER_SENSE
现在我假设这台机器有RAID控制器,但不知道configuration了什么types的RAID(如果有的话)。
从lspci输出:
01:00.0 SCSI存储控制器:LSI Logic / Symbios Logic SAS1068E PCI-Express Fusion-MPT SAS(修订版08)
所以这是我的问题:有没有一种方法来诊断这个问题,而无需重新启动机器,从Linux命令行? 从系统级别来看,我只看到逻辑驱动器,而不是硬盘驱动器连接在RAID中,这通常是好的,但现在我想检查是否有RAID,哪个硬盘驱动器是这个RAID的成员,哪个硬盘驱动器出现故障。
EDIT1。 在这一刻,我只有ssh访问这个machinse所以这就是为什么我想知道这是否有可能通过ssh来诊断这个问题的原因。
如果你不愿意重新启动你的系统来安装制造商的工具,你基本上会坐在这里,固执直到机器完全死亡。
在这一点上,你想要什么并不重要。 机器将会closures,可能是好的。 您不必担心重新启动,因为您必须这样做,作为更换硬盘和从备份中恢复的一部分。 (你有备份,对吧?)。
讲座结束。
如果您不想安装制造商的诊断工具,唯一剩下的select是实际走到机器上,并寻找闪烁红色(或黄色)“故障”指示灯的驱动器。 replace那个。
这当然假设RAID-1,RAID-5,RAID-6或其他一些configuration可以让您replace单个发生故障的驱动器(并且只有一个发生故障的驱动器)。 如果您没有使用这种configuration,或者有更多的驱动器出现故障,那么您将重新“更换所有驱动器并从备份中恢复”。
缺乏备份,你坚持“做后备,那么如果你没有得到你所需要的一切,就打电话给数据恢复公司,尽量挽救你所能做的事”。
磁盘上有中等错误,这意味着有数据是不可读的。 LSI日志信息(0x31080000)告诉你后来的IO由于SATA错误恢复的方式而失败。 这本身不是问题。
你有一个坏的磁盘,你已经失去了数据,如果你有RAID,那么它的工作也失败了。 尽pipe你根本没有RAID,但是要知道你应该看看lsscsi的输出,它会告诉你/ dev / sda设备的结构和模型。 如果它说的是硬盘(WD,Hitachi,Seagate),那么你就有一个单独的硬盘,如果它说LSI你有一个RAID设备。
无论哪种方式,你已经失去了数据,即使它是一个RAID设备,它无法从底层中等错误恢复,并在最后返回一个中等错误。
这之后做什么?
你需要find你丢失的文件,尝试一个接一个的阅读(find,xargs和cat是一个很好的一堆),看看哪些文件不能被读取。 你需要把它们从备份。
要恢复扇区只是再次写入它们,它会修复当前的介质错误,你可以删除文件或写在他们的文件系统将在自己的时间做到这一点。
要知道硬盘是否仍值得使用,您需要查看问题是否重复或扩展,您可以使用smartctl,大多数情况下查找重新分配的数量,如果您希望在任何月份增长超过一次代替它。
如果有疑问并且您关心数据,请更换磁盘。 中等错误的磁盘比没有磁盘的磁盘更可能是坏的。