Linux软件突袭健壮性

我有一个4磁盘5TB raid5安装程序,其中一个磁盘显示下降的迹象。 它正在报告媒体错误,并从dmesg我可以看到,几个读取错误得到纠正。 smartctl确实报告“通知”,但至今没有恐慌。 由于新磁盘相当昂贵的时刻,我开始思考如何强大的Linux MDC层。

我将不胜感激,如果有人可以阐明如何md实际上处理磁盘错误。 例如,md是如何处理写入和读取错误的 – 磁盘从数组中被拒绝是什么(真的)。 我还看到最近md得到了映射坏块的支持。 这是否意味着我读过的错误将被映射出来,如果我运行kernel> 3.1或者md仍然尝试“在它们上工作”使它们可用。

如果您关心您的数据,请立即更换磁盘。 每个子系统都尽其所能来防止数据丢失,但它只能做很多事情。 即使它可以映射坏块:当有一个时,会有其他的

对于即将出现的问题,你有很大的警告:忽略它们对你的客户数据是不负责任的。

编辑,因为这是太长的评论:

我不知道你的问题真的是什么? 你想知道警告是否严重吗? 对,他们是。 你需要什么吗? 是的,现在。

当一些子系统报告读取错误时,他们在那里,而且是重要的。 即使系统仍然能够纠正它们,从现在开始两分钟内很有可能不再是这种情况,并且磁盘将被标记为失败并被脱机。

Linux md raid至less和任何硬件RAID实现一样值得信赖,但是我认为在最好的情况下RAID5是一个危险的select。 问题在于,在恢复过程中,您将不受保护,这对RAID5来说是非常重要的情况。 我认为它比一些硬件RAID系统更值得信赖,因为当硬盘即将失败时,你会得到高级警告,而硬件RAID只有在事实发生后才会通知你。 软件RAID有一些缺陷,主要与性能问题有关,但可靠性不是其中之一。

无论如何,无论如何,像你这样的情况下的专业方法是立即更换磁盘,这也是我对我的私有磁盘arrays的反应(我有一个备用的谎言在这种情况下)。

这与我们戴尔服务器的使用经验有6年左右的历史:当时我们没有使用硬件RAID,因为没有可能远程检测到磁盘故障。

所以我们使用了软件raid 1(md)。 过了一段时间,这次袭击已经退化了。 查看/ var / log / messages我看到有一个与某个分区相关的IO错误列表。

我重新join了这个分区,不久之后它又被抛出了。

我发送戴尔支持/ var / log / messages输出,并立即得到一个新的磁盘。 这是一个不受支持的Linux风格,只有最基本的支持水平。

我们有一些其他的机器设置,并再也没有遇到这些问题(即磁盘从未失败)。 对我来说,这是certificate你可以依靠md。

我认为这仍然适用于3.1内核(我还没有任何这些)。

据我所知,mdadm是一个强大的软件RAID实施,与处于良好状态的高清很less产生任何types的错误,我有几个configuration了mdadm的服务器,我从来没有在日志文件中读取错误。

用下列方法检查你的数组的状态:

mdadm --detail /dev/mdX 

不过,我强烈build议您更换驱动器的错误负责…