HP Proliant DL380 G6 – 在RAID 1重build期间发生第二个磁盘故障后恢复

**免责声明,我刚刚成为这个系统的pipe理员,并意识到备份是无法使用的。 而且,pipe理软件的状态是可怕的**

系统(Ubuntu 14.04)在RAID 1(A和B)中运行两个146GB 10k SAS驱动器。 这些机箱是热插拔的,所以服务器在这个过程中还在运行。

我的目标是确定驱动器B故障的来源,并且如果它很小(例如“不可读块错误”),则可以使用驱动器B重新启动系统,也可以强制重buildarrays,尽pipe存在错误。 最主要的是确定如何让arrays控制器报告失败模式,并将故障驱动器视为好。

我只想恢复一些小的configuration文件,使重新安装时我的生活更轻松。

服务器当前处于有限状态,但是如果重新启动,肯定不会从驱动器C启动,因为部分/ bin /丢失了。 令人惊讶的是它仍然在服务它的function,因为它只是经常使用dhcp和ssh。

我最终解决了这个问题,实际上我恢复了大部分的configuration。

当linux检测到故障并试图防止更多的损坏时,文件系统被挂载为只读。

  1. 重新启动系统到live CD,在raid提示下强制系统忽略[新]死的驱动器

  2. 安装HParraysconfiguration实用程序(HPACUCLI)来检查raid状态,安装驱动器并备份我可以的文件(〜24小时总计)

  3. 删除Live CD并重新启动,启动到原始的操作系统(实际上工作!)

  4. 在原始磁盘上运行fsck (很多/home/ data丢失,但这不是问题)

  5. 更换新的故障驱动器,build立一个适当的备份策略,这样不会再发生。