ZFS池中的硬盘故障是什么样子的，您究竟做了什么？

人们经常谈论ZFS的理论上的好处，以及它如何容易地（RAIDZ1 / 2）硬盘故障，服务器故障对这个事实有很多的佐证。我正在考虑使用FreeNASbuild立一个带有3-5个硬盘驱动器的NAS，而且我可能会在晚上备份重要的文档，所以我不能停留一个多星期的停机时间。

（物理上）硬盘驱动器如何失败？

当zpool中的硬盘驱动器出现故障时，ZFS会做什么，特别是FreeNAS？ 就像SMTP一样，发送一封电子邮件说：“更换硬盘1，然后点击好的…完成后。

FreeNAS从RAIDZ2的双盘故障中恢复需要多长时间？

在假设最小的人机交互的情况下，如何从RAIDZ2设置中的最差容错硬盘故障中恢复成功？

一个非专业人员可以从一个SO质量手册或一个向导graphics地执行恢复吗？

FreeNAS支持SMART监控，所以通常在驱动器出现故障之前，如果通知设置正确并启用了监控function，sysadmin将获得不良的不可用扇区，过热等报告。FreeNAS从9.2.1.8开始支持“热备份”。在zpool中configuration的备件可以手动推送以replace发生故障的驱动器，但是软件中没有任何内容可以自动执行该过程。在RAIDZ2中同时出现两个故障，几乎可以保证不可恢复的文件错误。这是因为一个被称为Bitrot的过程。当代驱动器通常是3TB +。为了获得比镜像空间利用更好的效果，可以从至less6个驱动器构buildRAIDZ2。现在有一个故障的驱动器和vdev容量大于12 TB的剩余RAID 5，如条纹和URE率10 ^ 14，您很可能会遇到URE。几乎可以肯定，如果驱动器供应商是正确的。在这样的消息中最小的结果是：

~# zpool status -v pool: dpool state: DEGRADED status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. action: Restore the file in question if possible. Otherwise restore the entire pool from backup. scan: resilvered 6.90T in 52h5m with 313 errors on Wed Oct 22 17:44:25 2014 config: NAME STATE READ WRITE CKSUM dpool DEGRADED 0 0 5.75K raidz2-0 ONLINE 0 0 78 c0t50014EE05807CC4Ed0 ONLINE 0 0 0 c0t50014EE6AAD9F57Fd0 ONLINE 0 0 0 c0t50014EE204FC5087d0 ONLINE 0 0 0 c0t50014EE6AADA3B7Cd0 ONLINE 0 0 0 c0t50014EE655849876d0 ONLINE 0 0 0 c0t50014EE6AADA3DFDd0 ONLINE 0 0 0 c0t50014EE6AADA38FFd0 ONLINE 39 0 0 raidz2-1 ONLINE 0 0 11.4K c0t50014EE6AADA45E4d0 ONLINE 1.69K 0 0 c0t50014EE6AADA45ECd0 ONLINE 726 0 0 c0t50014EE6AADA3944d0 ONLINE 0 0 0 c0t50014EE204FC1F46d0 ONLINE 0 0 0 c0t50014EE6002A74CEd0 ONLINE 0 0 0 c0t50014EE2AFA6C8B4d0 ONLINE 0 0 0 c0t50014EE6002F9C53d0 ONLINE 5 0 0 raidz2-2 DEGRADED 0 0 0 c0t50014EE6002F39C5d0 ONLINE 0 0 0 c0t50014EE25AFFB56Ad0 ONLINE 0 0 0 c0t50014EE6002F65E3d0 ONLINE 0 0 0 c0t50014EE6002F573Dd0 ONLINE 0 0 0 c0t50014EE6002F575Ed0 ONLINE 0 0 0 spare-5 DEGRADED 0 0 0 c0t50014EE6002F645Ed0 FAULTED 1 29 0 too many errors c0t50014EE2AFA6FC32d0 ONLINE 0 0 0 c0t50014EE2050538DDd0 ONLINE 0 0 0 raidz2-3 ONLINE 0 0 0 c0t50014EE25A518CBCd0 ONLINE 0 0 0 c0t50014EE65584A979d0 ONLINE 0 0 0 c0t50014EE65584AC0Ed0 ONLINE 0 0 0 c0t50014EE2B066A6D2d0 ONLINE 0 0 0 c0t50014EE65584D139d0 ONLINE 0 0 0 c0t50014EE65584E5CBd0 ONLINE 0 0 0 c0t50014EE65584E120d0 ONLINE 0 0 0 raidz2-4 ONLINE 0 0 0 c0t50014EE65584EB2Cd0 ONLINE 0 0 0 c0t50014EE65584ED80d0 ONLINE 0 0 0 c0t50014EE65584EF52d0 ONLINE 0 0 0 c0t50014EE65584EFD9d0 ONLINE 0 0 1 c0t50014EE2AFA6B6D0d0 ONLINE 0 0 0 c0t5000CCA221C2A603d0 ONLINE 0 0 0 c0t50014EE655849F19d0 ONLINE 0 0 0 spares c0t50014EE2AFA6FC32d0 INUSE currently in use errors: Permanent errors have been detected in the following files:

名为“重新同步”的重build过程将取决于各个驱动器的速度及其占用情况。想想25MB / s的最高速度。然而，这里是一个真实的例子，多个故障和5MB / s的实际速度 – 所以我们正在谈论的一周（s） – 这是2TB 7200转的WD驱动器。

 ~# zpool status pool: dpool state: ONLINE status: One or more devices is currently being resilvered. The pool will continue to function, possibly in a degraded state. action: Wait for the resilver to complete. scan: resilver in progress since Thu Nov 13 10:41:28 2014 338M scanned out of 48.3T at 5.72M/s, (scan is slow, no estimated time) 32.3M resilvered, 0.00% done config: NAME STATE READ WRITE CKSUM dpool ONLINE 0 0 0 raidz2-0 ONLINE 0 0 0 gptid/9640be78-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 (resilvering) gptid/97b9d7c5-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/994daffc-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/9a7c78a3-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/9c48de9d-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/9e1ca264-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 (resilvering) gptid/9fafcc1e-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/a130f0df-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/a2b07b02-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/a44e4ed9-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 raidz2-1 ONLINE 0 0 0 gptid/a617b0c5-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/a785adf7-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/a8c69dd8-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 (resilvering) gptid/aa097d45-a3e1-11e3-844a-001b21675440 ONLINE 0 0 1 (resilvering) gptid/ab7e0047-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/acfe5649-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 (resilvering) gptid/ae5be1b8-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/afd04931-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/b14ef3e7-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/b2c8232a-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 raidz2-2 ONLINE 0 0 0 gptid/b43d9260-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/b5bd6d79-a3e1-11e3-844a-001b21675440 ONLINE 0 0 1 (resilvering) gptid/b708060f-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/b8445901-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/b9c3b4f4-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/bb53a54f-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/bccf1980-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/be50575e-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 (resilvering) gptid/bff97931-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/c1b93e80-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 spares gptid/c4f52138-a3e1-11e3-844a-001b21675440 AVAIL gptid/c6332a6f-a3e1-11e3-844a-001b21675440 AVAIL errors: No known data errors

RAIDZ中的数据保护并不意味着取代备份。在仅有3年的时间内，在具有RAID2保护function的存储设备中，统计上至less会丢失一些文件。因此，复制到第二位是强制性的。 FreeNAS支持ZFS发送/接收以及rsync。如果一个人已经设置了监控，并且注意到了自己的通知，那么很容易启动备份插入到zpools。然而，目前的FreeNAS版本（9.2.1.8）没有提供简单的方法来识别发生故障的磁盘的插槽/机箱。你可以检查我的答案的主题：如何确定哪个磁盘在FreeNAS / ZFS设置失败

我可以从个人经验中回答以下问题。

您问：FreeNAS从RAIDZ2的双盘故障中恢复需要多长时间？

我注意到：我正在使用卷状态中的“replace”命令replace现有的非故障驱动器。

4.67T的数据需要扫描。我获得了30M / s的重复传输率。我认为这是相当不错的。花了约48小时更换驱动器。由于该arrays没有退化，所以我不担心在这个过程中另一个驱动器故障。

这就是为什么在驱动器发生故障之前更换驱动器（例如SMART错误或任何types的写入或读取错误）非常重要。我也同意Dimitar认为池应该同步到另一个逻辑上独立的设备，最好每小时。

你问：一个非专业人员是否可以从SO质量手册或向导中以graphics方式执行恢复？

我注意到：在我看来，没有。使用FreeNAS / ZFS需要很多技巧。