在Linux RAID10设备上未发现读取错误

我有一台运行Ubuntu 14.04的HP DL380p Gen8,显然它的RAID10文件系统已经有一段时间了,尽pipe一切似乎都没有问题。 我在dmesg / syslog / etc中看到了很多这些消息。 尽pipeRead行中的hex值有所不同。

 Nov 18 08:09:25 server03 kernel: sd 2:0:0:1: [sdb] Nov 18 08:09:25 server03 kernel: Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE Nov 18 08:09:25 server03 kernel: sd 2:0:0:1: [sdb] Nov 18 08:09:25 server03 kernel: Sense Key : Medium Error [current] Nov 18 08:09:25 server03 kernel: sd 2:0:0:1: [sdb] Nov 18 08:09:25 server03 kernel: Add. Sense: Unrecovered read error Nov 18 08:09:25 server03 kernel: sd 2:0:0:1: [sdb] CDB: Nov 18 08:09:25 server03 kernel: Read(16): 88 00 00 00 00 03 f8 48 f5 38 00 00 00 80 00 00 

iLO和hpssacli都报告所有磁盘都正常,文件系统不是只读的。 / dev / sdb设备是使用服务器的RAID控制器的RAID10,包含20 x 900 GB的磁盘。

这是一个生产服务器,虽然我重新启动了一次,试图澄清这一点,我不愿意尝试一个fsck,而不是试图确定这些消息是什么意思,当没有其他明显的问题。

那么,有什么想法可能是错误的吗?

好的,我会用正常的故障排除技术来回答,但这是我的免责声明:

  • 我真的不主张在裸机硬件上运行Ubuntu; 特别是HP ProLiant系统。
  • 当涉及惠普系统,驱动程序,监控和增值软件时,支持生态系统对于Ubuntu来说并不存在。
  • 惠普固件包不是为Ubuntudevise的, 所以上帝知道你正在运行什么样的固件版本 。
  • Ubuntu倾向于引入一些我从来没有看到过的更多商业Linux发行版的奇怪的错误。

请在您的问题或单独的pastebin中提供以下内容。

  • 我想输出hpssacli ctrl all show config
  • 我想hpssacli ctrl all show config detail的输出hpssacli ctrl all show config detail
  • 请给出df -hfdisk -l的输出。
  • 请张贴lsscsi的输出。

由于您在Ubuntu上,因此可能没有安装HP Management Agent。 虽然hpssacli可以提供对arrays运行状况的检查,但hp-snmp-agents软件包提供了实际的持续监控。

如果您确实安装了某些HP Health Agent,请运行hplog -v以提取IML日志。


我的猜测是您正在运行HP ProLiant DL380p Gen8 25托架SFF服务器。 没有打补丁的,这些单位中的很多都遭受了Smart Array控制器和控制器caching故障 。 还有一些关键的扩展器底板更新需要在该平台上运行。

我最终通过卸载和重新创build文件系统来解决这个问题,并且从重新启用服务器上的数据库应用程序以来,即使重新创build了来自其他群集节点的近4 TB数据,我也没有看到任何错误消息。 (我想知道如果在这个服务器的过去的磁盘replace在某种程度上促成了文件系统被损坏。)