如何用有限的testing资源来恢复testing?

资源有限的小型组织如何去做数据备份系统的恢复testing?

哄骗“testing你的备份!” 在面对全面恢复testing涉及的现实时似乎是不切实际的,而不会影响主线系统。

假设组织没有数十万美元的预留服务器容量,只是为了临时启动一个完整的testing环境来确认夜间备份是可恢复的。

有没有办法certificate第二次购买所有的主线硬件,只是做一年的恢复testing,但是否在存储,关机和不使用?

有关介质恢复testing的其他服务器故障讨论中已经build议使用单独的磁带驱动器来确认介质在其他设备中是否可用。

对于只有几台服务器和一个生产磁带机的小型站点来说,看起来很难certificate购买额外的LTO-7磁带驱动器是值得的,而且需要额外的授权才能使用备份软件。一年一次的介质恢复/testing环境validation过程,然后将其粘贴在书架上,直到明年的testing过程才使用它。

你testing你的备份主要是为了testing你的恢复程序,所以当你处于危机的情况下,你会知道该怎么做,当每个人都会恐慌,你将会胜任,自信,冷静,并知道该怎么做,恢复大致需要多长时间等等,因为那时恢复备份是一个例行事件。

你可能想要做的第二件事是testing数据的完整性 ,一旦你恢复了关键数据可以恢复生产? 没有损坏或不完整?

你可以也可能应该同时testing这两件事。 只有一旦你有了基础知识,你应该尝试恢复整个数据中心。

例如,如果您对文件系统和networking共享进行备份,则适合的testing是在备用位置还原特定的目录,并将文件大小,哈希和权限与原始文件进行比较。

下一次需要克隆数据库进行testing时,请从备份中恢复生产数据库。

如果需要,在虚拟机上执行“裸机”操作系统恢复。


但备份和恢复只是更大的灾难恢复策略和业务连续性计划的一个方面。

当您的目前位置由于自然灾害(火灾,洪水,飓风等)而丢失时,您的业务将会做什么? 它可以继续从其他现有的地点运作,还是你的是唯一的位置,企业是否会破产或将保险金用于租用紧急办公室/集装箱?

这是几年前在一家公司的BCP战略:与惠普或当时的IBM签订合同,每年在一个容器中提供一个数据中心,以便完成数据中心灾难恢复testing,并在待机状态下严重灾害。

该公司有1个办公室设施,只有场外录音带(或者是磁带机器人)和其他所有内部录音带。 这个想法是,租用临时配备的办公空间,获得互联网连接和重新安排电话号码,获得台式机和打印机等主要是商品和易于安排。 但是IT稍微less一些。 双数据中心的成本效益计算是不利的。

所以最初是每6个月,但是之后每年一次,他们做了一个完整的BCPtesting,但在临时租用的硬件上:部署VMWare,恢复备份服务器,用AD域控制器,邮件服务器,数据库和应用程序服务器恢复虚拟机和文件共享。

更现代的BCP策略可以是基于云的,并且可以在线备份外部备份,也可以在云中testing灾难恢复,如果只需要几天,即使相当多的虚拟机也不会打破银行。

用一句古老的谚语来解释

灾难是一定的,还原 – 不完全

总之,备份恢复testing是绝对需要的。 要有一个好的备份和恢复计划,我想强调以下几点:

  • 向pipe理层通报明确定期恢复是真正的需要。 这往往是最难的部分,因为pipe理层认为没有直接的,直接的好处,是多余的。 可悲的现实是他们的数据处于危险之中,他们需要明白,定期恢复,虽然有相关的成本,但这是值得的投资。
  • 就你而言,尽量避免使用专有的二进制blob来存储你的备份:它们几乎不可检查,几乎不提供部分恢复的可能性。 强烈倾向于开放的,可检查的文件格式(如tar ),或者更好的是使用rsync (或类似的工具)对数据进行文件系统级的备份。 有了这些工具,您可以非常容易地检查备份,并且如果所有(或大部分)存在/可访问,都可以一目了然。
  • 为了快速恢复,请尝试使用关键虚拟机的二进制映像 (通过快照)。 通过在任何配备兼容的虚拟化软件的工作站上简单地导入/启动它(现在所有主要的虚拟化平台都有免费的试用版,这种“便宜的”恢复很适合这个法案)
  • 对于数据库, 使用适当的转储工具并在虚拟机中恢复它,然后要求单个用户使用恢复的数据库并快速检查应用程序是否工作以及是否存在最近的数据(即:昨天)
  • 当你的备份和恢复过程起作用时, logging下来:当出现问题时,你将有一个非常明确的操作计划,减less压力,增加成功机会。

为了实现快速,经济高效的恢复,充分利用在廉价硬件上运行的临时虚拟机(阅读:退役的服务器或工作站)至关重要。 如果磁盘空间有问题,请广泛使用精简configuration。 如果可用的RAM是这个问题,则每次只能恢复一个小的VM子集(甚至一个)。

For a small site with only a few servers and a single production tape drive, it seems hard to justify buying an additional LTO-7 tape drive for thousands of dollars and additional licensing for the backup software to go with it, just to use it for a once-per-year media restore / test environment verification process and then stick it on a shelf and don't use it until next year's test process.

大多数公司实际上并没有这样做。 原因是他们认为,万一他们需要更换备份硬件,在发生完全和灾难性的损失的情况下,他们可以购买所需的硬件,并在几小时内(在一定的价格)。 因此,您的计划不一定需要包括购买备用硬件,软件,许可证等。