人们经常谈论ZFS的理论上的好处,以及它如何容易地(RAIDZ1 / 2)硬盘故障,服务器故障对这个事实有很多的佐证。 我正在考虑使用FreeNASbuild立一个带有3-5个硬盘驱动器的NAS,而且我可能会在晚上备份重要的文档,所以我不能停留一个多星期的停机时间。
(物理上)硬盘驱动器如何失败 ?
当zpool中的硬盘驱动器出现故障时,ZFS会做什么,特别是FreeNAS? 就像SMTP一样,发送一封电子邮件说:“更换硬盘1,然后点击好的…完成后。
FreeNAS从RAIDZ2的双盘故障中恢复需要多长时间?
在假设最小的人机交互的情况下,如何从RAIDZ2设置中的最差容错硬盘故障中恢复成功?
一个非专业人员可以从一个SO质量手册或一个向导graphics地执行恢复吗?
FreeNAS支持SMART监控,所以通常在驱动器出现故障之前,如果通知设置正确并启用了监控function,sysadmin将获得不良的不可用扇区,过热等报告。FreeNAS从9.2.1.8开始支持“热备份”。 在zpool中configuration的备件可以手动推送以replace发生故障的驱动器,但是软件中没有任何内容可以自动执行该过程。 在RAIDZ2中同时出现两个故障,几乎可以保证不可恢复的文件错误。 这是因为一个被称为Bitrot的过程。 当代驱动器通常是3TB +。 为了获得比镜像空间利用更好的效果,可以从至less6个驱动器构buildRAIDZ2。 现在有一个故障的驱动器和vdev容量大于12 TB的剩余RAID 5,如条纹和URE率10 ^ 14,您很可能会遇到URE。 几乎可以肯定,如果驱动器供应商是正确的。 在这样的消息中最小的结果是:
~# zpool status -v pool: dpool state: DEGRADED status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. action: Restore the file in question if possible. Otherwise restore the entire pool from backup. scan: resilvered 6.90T in 52h5m with 313 errors on Wed Oct 22 17:44:25 2014 config: NAME STATE READ WRITE CKSUM dpool DEGRADED 0 0 5.75K raidz2-0 ONLINE 0 0 78 c0t50014EE05807CC4Ed0 ONLINE 0 0 0 c0t50014EE6AAD9F57Fd0 ONLINE 0 0 0 c0t50014EE204FC5087d0 ONLINE 0 0 0 c0t50014EE6AADA3B7Cd0 ONLINE 0 0 0 c0t50014EE655849876d0 ONLINE 0 0 0 c0t50014EE6AADA3DFDd0 ONLINE 0 0 0 c0t50014EE6AADA38FFd0 ONLINE 39 0 0 raidz2-1 ONLINE 0 0 11.4K c0t50014EE6AADA45E4d0 ONLINE 1.69K 0 0 c0t50014EE6AADA45ECd0 ONLINE 726 0 0 c0t50014EE6AADA3944d0 ONLINE 0 0 0 c0t50014EE204FC1F46d0 ONLINE 0 0 0 c0t50014EE6002A74CEd0 ONLINE 0 0 0 c0t50014EE2AFA6C8B4d0 ONLINE 0 0 0 c0t50014EE6002F9C53d0 ONLINE 5 0 0 raidz2-2 DEGRADED 0 0 0 c0t50014EE6002F39C5d0 ONLINE 0 0 0 c0t50014EE25AFFB56Ad0 ONLINE 0 0 0 c0t50014EE6002F65E3d0 ONLINE 0 0 0 c0t50014EE6002F573Dd0 ONLINE 0 0 0 c0t50014EE6002F575Ed0 ONLINE 0 0 0 spare-5 DEGRADED 0 0 0 c0t50014EE6002F645Ed0 FAULTED 1 29 0 too many errors c0t50014EE2AFA6FC32d0 ONLINE 0 0 0 c0t50014EE2050538DDd0 ONLINE 0 0 0 raidz2-3 ONLINE 0 0 0 c0t50014EE25A518CBCd0 ONLINE 0 0 0 c0t50014EE65584A979d0 ONLINE 0 0 0 c0t50014EE65584AC0Ed0 ONLINE 0 0 0 c0t50014EE2B066A6D2d0 ONLINE 0 0 0 c0t50014EE65584D139d0 ONLINE 0 0 0 c0t50014EE65584E5CBd0 ONLINE 0 0 0 c0t50014EE65584E120d0 ONLINE 0 0 0 raidz2-4 ONLINE 0 0 0 c0t50014EE65584EB2Cd0 ONLINE 0 0 0 c0t50014EE65584ED80d0 ONLINE 0 0 0 c0t50014EE65584EF52d0 ONLINE 0 0 0 c0t50014EE65584EFD9d0 ONLINE 0 0 1 c0t50014EE2AFA6B6D0d0 ONLINE 0 0 0 c0t5000CCA221C2A603d0 ONLINE 0 0 0 c0t50014EE655849F19d0 ONLINE 0 0 0 spares c0t50014EE2AFA6FC32d0 INUSE currently in use errors: Permanent errors have been detected in the following files:
名为“重新同步”的重build过程将取决于各个驱动器的速度及其占用情况。 想想25MB / s的最高速度。 然而,这里是一个真实的例子,多个故障和5MB / s的实际速度 – 所以我们正在谈论的一周(s) – 这是2TB 7200转的WD驱动器。
~# zpool status pool: dpool state: ONLINE status: One or more devices is currently being resilvered. The pool will continue to function, possibly in a degraded state. action: Wait for the resilver to complete. scan: resilver in progress since Thu Nov 13 10:41:28 2014 338M scanned out of 48.3T at 5.72M/s, (scan is slow, no estimated time) 32.3M resilvered, 0.00% done config: NAME STATE READ WRITE CKSUM dpool ONLINE 0 0 0 raidz2-0 ONLINE 0 0 0 gptid/9640be78-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 (resilvering) gptid/97b9d7c5-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/994daffc-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/9a7c78a3-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/9c48de9d-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/9e1ca264-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 (resilvering) gptid/9fafcc1e-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/a130f0df-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/a2b07b02-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/a44e4ed9-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 raidz2-1 ONLINE 0 0 0 gptid/a617b0c5-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/a785adf7-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/a8c69dd8-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 (resilvering) gptid/aa097d45-a3e1-11e3-844a-001b21675440 ONLINE 0 0 1 (resilvering) gptid/ab7e0047-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/acfe5649-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 (resilvering) gptid/ae5be1b8-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/afd04931-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/b14ef3e7-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/b2c8232a-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 raidz2-2 ONLINE 0 0 0 gptid/b43d9260-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/b5bd6d79-a3e1-11e3-844a-001b21675440 ONLINE 0 0 1 (resilvering) gptid/b708060f-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/b8445901-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/b9c3b4f4-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/bb53a54f-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/bccf1980-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/be50575e-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 (resilvering) gptid/bff97931-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 gptid/c1b93e80-a3e1-11e3-844a-001b21675440 ONLINE 0 0 0 spares gptid/c4f52138-a3e1-11e3-844a-001b21675440 AVAIL gptid/c6332a6f-a3e1-11e3-844a-001b21675440 AVAIL errors: No known data errors
RAIDZ中的数据保护并不意味着取代备份。 在仅有3年的时间内,在具有RAID2保护function的存储设备中,统计上至less会丢失一些文件。 因此,复制到第二位是强制性的。 FreeNAS支持ZFS发送/接收以及rsync。 如果一个人已经设置了监控,并且注意到了自己的通知,那么很容易启动备份插入到zpools。 然而,目前的FreeNAS版本(9.2.1.8)没有提供简单的方法来识别发生故障的磁盘的插槽/机箱。 你可以检查我的答案的主题: 如何确定哪个磁盘在FreeNAS / ZFS设置失败
我可以从个人经验中回答以下问题。
您问:FreeNAS从RAIDZ2的双盘故障中恢复需要多长时间?
我注意到:我正在使用卷状态中的“replace”命令replace现有的非故障驱动器。
4.67T的数据需要扫描。 我获得了30M / s的重复传输率。 我认为这是相当不错的。 花了约48小时更换驱动器。 由于该arrays没有退化,所以我不担心在这个过程中另一个驱动器故障。
这就是为什么在驱动器发生故障之前更换驱动器(例如SMART错误或任何types的写入或读取错误)非常重要。 我也同意Dimitar认为池应该同步到另一个逻辑上独立的设备,最好每小时。
你问:一个非专业人员是否可以从SO质量手册或向导中以graphics方式执行恢复?
我注意到:在我看来,没有。 使用FreeNAS / ZFS需要很多技巧。