URE究竟是什么?

我最近一直在研究RAID5 Vs RAID6,并且由于URE额定值和驱动器尺寸的增加,我一直看到RAID5不够安全。 基本上,我发现的大部分内容都表示,在RAID5中,如果磁盘发生故障,如果arrays的其余部分是12TB,则几乎有100%的机会遇到URE并丢失数据。

12TB的数据来自这样一个事实,即磁盘读取10 ^ 14位的数据以达到一个URE。

那么,我不能到这里。 阅读是由头部进行的部门完成的,可以使阅读失败的是头部死亡或部门死亡。 也可能是由于某种其他原因,阅读不起作用(我不知道,就像一个震动头部跳跃…)。 所以,让我解决所有三种情况:

  • 阅读不起作用:这不是不可恢复的,对吗? 它可以再试一次。
  • 头部死亡:这肯定是无法恢复的,但是,这也意味着整个拼盘(或者至less是侧面)将是不可读的,这将是更惊人的,不是?
  • 该部门的死亡:也完全无法恢复,但在这里我不明白为什么4TB磁盘的额定值为10 ^ 14的URE和8TB的额定值为10 ^ 14的URE,这将意味着8TB(很可能是新技术)的可靠性与4TB的一样可靠,这是没有意义的。

如你所见,从我认定的3个失败点来看,没有任何意义。 那么URE究竟是什么,具体是指?

有人可以向我解释吗?

编辑1

在第一波答案之后,似乎是这个部门失败的原因。 好的是,固件,RAID控制器和OS +文件系统已经有程序来及早检测和重新分配扇区。

那么,我现在知道什么是URE(实际上,这个名字是不言而喻的:))。

我仍然困惑于潜在的原因,主要是他们给出的稳定的评级。

有些人把失败的部门归因于外部的来源(宇宙波),然后我感到惊讶的是,URE的速度是基于读数,而不是年龄,宇宙波确实会影响更老的磁盘,因为它已经暴露更多的,我认为这更像是一种幻想,虽然我可能是错的。

现在是另一个与磁盘磨损相关的原因,有人指出,密度越高,磁畴越弱,这是完全合理的,我会按照解释。 但是, 正如这里很好地解释的那样 ,较新的磁盘不同的大小主要通过在HDD机箱中放置或多或less的相同的盘片(然后相同的密度)来获得。 这些扇区是相同的,都应该有相同的可靠性,所以更大的磁盘应该比较小的磁盘有更高的评价,扇区读取更less,这是不是这样,为什么? 这可以解释为什么新技术的新硬盘比旧硬盘没有更好的等级,仅仅是因为更高的技术收益被更高密度的损失所取代。

URE是不可恢复的读取错误。 发生了一些事情,导致读取扇区失败,驱动器无法修复。 驱动电子设备非常复杂,如果能够正确地从磁盘读取数据,则只能传递数据。 驱动电子设备将多次尝试读取坏扇区,然后宣布其损坏。

是什么导致了读取错误 – 我不是这里的专家(arm挥动随之而来),但驱动器老化会导致制造公差变得相关。 磁畴可能变弱。 宇宙射线会造成伤害等等。实际上这是一个随机失败。

这对RAID 5有什么影响?

RAID 5由具有分布式奇偶校验的块级条带组成。 通过将来自数据块的位异或来计算奇偶校验块。 XOR函数基本上说,如果所有的位都是相同的,那么结果是0,否则它是1.当计算奇偶校验时,先取2位,然后对它们进行异或运算,然后将结果与下一个位进行异或运算等。

1010 data or 1010 data 1100 data 1100 data 0110 parity 0011 data 0101 parity 

XOR函数的本质是,如果任何磁盘死亡并被replace,应该在其上的数据可以从剩余的磁盘重build。

 1010 data or 1010 data damaged damaged 0101 parity 0011 data 0101 parity 

正如你所看到的,损坏的数据可以通过对余下的数据和奇偶校验进行异或来重build。

URE如何影响这个?

URE仅在RAID 5重build期间有意义。

当你重build一个RAID 5时,需要做大量的读取工作。 需要读取每个数据块才能重build新磁盘上的数据。 如果发生URE,则相关块的数据将无法恢复,因此数据不一致。 对于具有足够大的R5的足够大的磁盘,为了重build被replace的磁盘而读取的比特数超过例如10 ^ 14读取中的1比特的URE值。

那么URE究竟是什么,具体是指?

硬盘不会简单地存储您要求的数据。 由于磁畴大小的不断减小以及硬盘以模拟而非二进制方式存储数据的事实(硬盘固件从盘片获得模拟信号,将其转换为二进制信号,并且该转换是作为制造商秘密的一部分),在阅读中几乎总会有一定程度的错误,必须予以补偿。

为了确保数据可以被读取,硬盘还会存储前向纠错数据以及您要求存储的数据。

在正常操作下,FEC数据足以纠正从盘片读回的信号中的错误。 固件可以重build原始数据,一切正常。 这是在SMART中作为读取错误率属性(SMART属性0x01)和/或硬件ECC恢复 (SMART属性0xc3)公开的可恢复读取错误

如果由于某种原因信号在特定点以下退化,则FEC数据不足以重build原始数据。 在这一点上,理论认为,固件仍然能够检测到数据不能被可靠地读回,但对此无能为力。 如果多个这样的读取失败,则磁盘必须以某种方式通知计算机的其余部分读取不能成功执行。 它通过发出不可恢复的读取错误信号来实现。 这也增加了报告的不可纠正错误 (SMART属性0xbb)计数器。

不可恢复的读取错误(URE)只是一个报告,无论出于何种原因,有效载荷数据加上FEC数据都不足以重build原始存储的数据。

请记住,URE费率是统计数据 。 您将不会遇到任何可以正确读取10 ^ 14(或10 ^ 15) – 1位的硬盘,然后下一位失败。 相反,这是制造商的说法,平均而言 ,如果读取(比如说)10 ^ 14位,那么在这个过程中的某个时刻,您将遇到一个不可读的扇区。

另外,在上面的最后几个字之后,请记住,URE速率是按照每比特读取扇区给出的。 由于盘片上的数据是如何存储的,磁盘无法辨别扇区的哪个部分是坏的,所以如果一个扇区没有通过FEC检查,那么整个扇区就被认为是坏的。

该部门的死亡:也完全无法恢复,但在这里我不明白为什么4TB磁盘的额定值为10 ^ 14的URE和8TB的额定值为10 ^ 14的URE,这将意味着8TB(很可能是新技术)的可靠性与4TB的一样可靠,这是没有意义的。

规范通常是“平均读取n位时检测到1个错误”,所以驱动器大小无关紧要。 如果您计算您的驱动器和工作负载出现错误的风险很重要,但制造商只说明需要读取n位来查找错误(平均而言,不能保证)。

例如:如果您购买1TB的驱动器,则必须读取约12次才能find错误,而8TB的驱动器可能会在第二次读取时遇到该错误 – 但读取的位数是两次相同的,所以质量的磁轴是大致相同的。

增加价格是另外一个因素,能够将8TB填入1TB的物理空间,大大降低了能耗,减less了驱动器的移动等。