Linux软件突袭健壮性

我有一个4磁盘5TB raid5安装程序，其中一个磁盘显示下降的迹象。它正在报告媒体错误，并从dmesg我可以看到，几个读取错误得到纠正。 smartctl确实报告“通知”，但至今没有恐慌。由于新磁盘相当昂贵的时刻，我开始思考如何强大的Linux MDC层。

我将不胜感激，如果有人可以阐明如何md实际上处理磁盘错误。例如，md是如何处理写入和读取错误的 – 磁盘从数组中被拒绝是什么（真的）。我还看到最近md得到了映射坏块的支持。这是否意味着我读过的错误将被映射出来，如果我运行kernel> 3.1或者md仍然尝试“在它们上工作”使它们可用。

如果您关心您的数据，请立即更换磁盘。每个子系统都尽其所能来防止数据丢失，但它只能做很多事情。即使它可以映射坏块：当有一个时，会有其他的

对于即将出现的问题，你有很大的警告：忽略它们对你的客户数据是不负责任的。

编辑，因为这是太长的评论：

我不知道你的问题真的是什么？你想知道警告是否严重吗？对，他们是。你需要什么吗？是的，现在。

当一些子系统报告读取错误时，他们在那里，而且是重要的。即使系统仍然能够纠正它们，从现在开始两分钟内很有可能不再是这种情况，并且磁盘将被标记为失败并被脱机。

Linux md raid至less和任何硬件RAID实现一样值得信赖，但是我认为在最好的情况下RAID5是一个危险的select。问题在于，在恢复过程中，您将不受保护，这对RAID5来说是非常重要的情况。我认为它比一些硬件RAID系统更值得信赖，因为当硬盘即将失败时，你会得到高级警告，而硬件RAID只有在事实发生后才会通知你。软件RAID有一些缺陷，主要与性能问题有关，但可靠性不是其中之一。

无论如何，无论如何，像你这样的情况下的专业方法是立即更换磁盘，这也是我对我的私有磁盘arrays的反应（我有一个备用的谎言在这种情况下）。

这与我们戴尔服务器的使用经验有6年左右的历史：当时我们没有使用硬件RAID，因为没有可能远程检测到磁盘故障。

所以我们使用了软件raid 1（md）。过了一段时间，这次袭击已经退化了。查看/ var / log / messages我看到有一个与某个分区相关的IO错误列表。

我重新join了这个分区，不久之后它又被抛出了。

我发送戴尔支持/ var / log / messages输出，并立即得到一个新的磁盘。这是一个不受支持的Linux风格，只有最基本的支持水平。

我们有一些其他的机器设置，并再也没有遇到这些问题（即磁盘从未失败）。对我来说，这是certificate你可以依靠md。

我认为这仍然适用于3.1内核（我还没有任何这些）。

据我所知，mdadm是一个强大的软件RAID实施，与处于良好状态的高清很less产生任何types的错误，我有几个configuration了mdadm的服务器，我从来没有在日志文件中读取错误。

用下列方法检查你的数组的状态：

mdadm --detail /dev/mdX

不过，我强烈build议您更换驱动器的错误负责…