我有一台运行Ubuntu 14.04的HP DL380p Gen8,显然它的RAID10文件系统已经有一段时间了,尽pipe一切似乎都没有问题。 我在dmesg
/ syslog
/ etc中看到了很多这些消息。 尽pipeRead行中的hex值有所不同。
Nov 18 08:09:25 server03 kernel: sd 2:0:0:1: [sdb] Nov 18 08:09:25 server03 kernel: Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE Nov 18 08:09:25 server03 kernel: sd 2:0:0:1: [sdb] Nov 18 08:09:25 server03 kernel: Sense Key : Medium Error [current] Nov 18 08:09:25 server03 kernel: sd 2:0:0:1: [sdb] Nov 18 08:09:25 server03 kernel: Add. Sense: Unrecovered read error Nov 18 08:09:25 server03 kernel: sd 2:0:0:1: [sdb] CDB: Nov 18 08:09:25 server03 kernel: Read(16): 88 00 00 00 00 03 f8 48 f5 38 00 00 00 80 00 00
iLO和hpssacli都报告所有磁盘都正常,文件系统不是只读的。 / dev / sdb设备是使用服务器的RAID控制器的RAID10,包含20 x 900 GB的磁盘。
这是一个生产服务器,虽然我重新启动了一次,试图澄清这一点,我不愿意尝试一个fsck,而不是试图确定这些消息是什么意思,当没有其他明显的问题。
那么,有什么想法可能是错误的吗?
好的,我会用正常的故障排除技术来回答,但这是我的免责声明:
请在您的问题或单独的pastebin中提供以下内容。
hpssacli ctrl all show config
。 hpssacli ctrl all show config detail
的输出hpssacli ctrl all show config detail
。 df -h
和fdisk -l
的输出。 lsscsi
的输出。 由于您在Ubuntu上,因此可能没有安装HP Management Agent。 虽然hpssacli
可以提供对arrays运行状况的检查,但hp-snmp-agents
软件包提供了实际的持续监控。
如果您确实安装了某些HP Health Agent,请运行hplog -v
以提取IML日志。
我的猜测是您正在运行HP ProLiant DL380p Gen8 25托架SFF服务器。 没有打补丁的,这些单位中的很多都遭受了Smart Array控制器和控制器caching故障 。 还有一些关键的扩展器底板更新需要在该平台上运行。
我最终通过卸载和重新创build文件系统来解决这个问题,并且从重新启用服务器上的数据库应用程序以来,即使重新创build了来自其他群集节点的近4 TB数据,我也没有看到任何错误消息。 (我想知道如果在这个服务器的过去的磁盘replace在某种程度上促成了文件系统被损坏。)