如何备份20 + TB的数据?

我在我工作的公司有一台NAS服务器,用于存储摄影会议。 每个会话大约100GB。 在过去的几年里,这台服务器已经累积了超过10 TB的数据,而且我们正在以指数方式增加照片的数量。 我估计到明年年底,我们将有20多TB存储在这个NAS上。 我们目前使用带有Symantec BackupExec的LTO-5磁带将此服务器备份到磁带。 由于此服务器的大小已经增长,所以此服务器的完整备份不会在一夜之间完成。 有没有人有任何build议如何备份这一数据量? 我们应该把它备份到磁带吗? 还有其他的select可能会更好吗?

您需要退后一步,不要再想:“我需要备份的NAS上有20TB!” 并制定一个考虑数据性质的存储策略:

  • 它来自哪里,你获得了多less新数据? (你的问题中有这个)
  • 一旦拥有它,数据如何使用? 人们在编辑图片吗? 你保留原件,并生成编辑版本?
  • 你需要多久保存所有的数据? 人们是否还在对2年前的照片进行修改?

根据最后两个问题的答案,您可能需要更多的存档系统,而不是完全不同的备份系统。

数据是静态的(例如2年前保留的“以防万一”的图片)不需要每晚甚至每周都备份,因此需要将其归档。 你实际上做的可能会更复杂,但从概念上讲,所有的旧照片都可以写成磁带(多份!),而不是备份。

根据你的意见,一些额外的想法:

  • 由于每张照片的原稿都保持不变,并在副本上工作,并且假设至less有一些原始照片是哑光的,所以您可能会将需要备份的数据量减半。

  • 如果您仍然无法在任何时间范围内完成完整备份,则常见的方法是先执行磁盘到磁盘备份,然后再将备份集复制到磁带。

你有两个select:

选项1:

  1. 购买另一个NAS
  2. 让您的用户可以访问new_NAS
  3. 将所有超过2年的文件移到new_NAS
  4. 照常备份old_NAS
  5. 每6个月将大于2年的文件移到new_NAS

选项2:

  1. 购买另一个NAS
  2. 每小时运行一次rsync :old_NAS – > new_NAS

    或者,更好地使用像rdiff-backup这样的rsync +保持文件更改的增量(你可以恢复旧版本的文件)

     rdiff-backup user1@old_NAS::/source-dir user2@new_NAS::/dest-dir 
  3. 每6个月清理一下运行如下内容的旧文件:

     rdiff-backup --remove-older-than 2Y old_NAS::/dest-dir 

为什么你的备份必须在一夜之间完成? 文件服务器性能? 您可以限制备份软件的带宽,以限制白天的影响。 或者专门在您的NAS上使用一个接口与磁带驱动器交谈,以限制对其他stream量的影响。

你可以在周末运行完整的转储,只在本周做增量吗? 如果问题是在周末没有人在附近更换磁带,那么便宜的磁带库/自动转换器的花费远低于付费人员更换磁带的成本。

你能把你的数据分成多个小组,足够小,可以在备份窗口内完成吗?

我们的NAS上有大约50TB的数据,用2个磁带机(一个卷本身需要一周的时间,因为它包含很多小文件)需要一个星期才能完整地转储整个数据。 我们所做的是将我们的数据复制到第二个NAS。 我们的辅助NAS是在现场(但与主数据中心不同),所以我们仍然将数据转换为磁带进行非现场备份。 我们运行备用NAS的备份,所以备份不会减慢任何人的速度。

如果您可以将您的辅助NAS整合得足够远,那么它可以作为您的备份,不需要磁带。

我只是怀疑每个拍摄会议的大小,真的是100GB /会议吗? 贵公司每个月会进行多less次会话?

由于你大多存储的是不会经常使用的旧会话,而且可能不需要频繁地恢复这些信息,所以我build议你使用某些公司的服务来为你处理这个任务。

举例来说,使用像Amazon Glacier这样的在线服务来存储这些20TB的费用将超过200美元/月。 如果您需要经常检索这些档案,甚至是完全恢复,那么这会造成一些时间/成本上的限制。 如果你只是把这些东西存储起来,“确保它们被存储起来”,也许使用第三部分可能会让你的生活更轻松(甚至比购买另一个NAS,磁带等更便宜)

full backups of this server are not completing overnight
然后尝试增量备份? 每xx天一次完整备份,其余的增量备份。

硬盘价格低廉,比磁带快,可用于备份。

此外,现在云备份还有很好的select,所以不需要继续添加更多更快的磁带。
例如:

  • 红门云服务
  • Amazon备份存储
  • 支持Amazon Glacier(便宜的长期存储)

我认为最好的解决scheme就是我们用工资单数据做的事情,而这些数据应该尽可能less地付诸实施。

  • 最初,它与每天备份的其余服务器数据保持一致。 我们在这些备份上的保留期限为13个月。

  • 一旦我们不再期望数据将需要修改,(两个支付期后,IIRC)数据(通过脚本)保存到不包含在常规备份中的归档卷。

  • 存档卷每年备份到磁带,并将磁带发送到Cintas进行无限存储。

这使我们能够轻松地在线访问这些不变的数据(因此,无论何时会计师都想要查看某个内容,我们不必随时拨打电话),同时保持我们可能需要永久保存的无限数据的非现场存档,而不会破坏我们的备份系统。 听起来像是同样types的设置可以为你工作,虽然你可能想要调整你保持在线的数据量,这取决于你的需要及时访问这些数据 – 20TB的企业级存储是昂贵得多而不是将其存储到存储在异地保pipe库中的两到三套LTO5磁带。

也许你可以build立自己的Backblaze Pod135Tb for 7384 $
点击这里获取更多信息: Backblaze Podbuild设信息

你可以购买所需的部分,并自己build立它。

也许你可以build造3个,现场2个,场外1个。 然后,您可以使用一个吊舱作为“在线数据”,第二个现场吊舱作为第一个吊舱的备份,第三个现场吊舱作为紧急异地备用。

每个吊舱有135Tb的存储空间,您甚至可以考虑保留一些历史logging。
135Tb / 20Tb = 19完全备份副本
或者,你可以保留10个完整的备份加上一个荒谬的数量的差异备份。

当然,如果你想要一个非现场备份,你需要一些大的带宽… 🙂

我的同事购买了一台Synology 8磁盘NAS。 它运行混合RAID。 他几个星期前从NewEgg购买了8个3TB希捷梭鱼,每个价格为89美元。 您可以通过GigaBit从生产NAS到这个新的NAS的rsync镜像。 既然你只是转移差异,转移将花费更短的时间。 然后,您可以使用备份NAS执行完整或增量。 备份NAS的成本将低于2000美元。