在大规模并行网格系统上进行备份的最佳实践

我在一家大公司的研究小组工作。 我们在有很多节点的网格处理系统(200多个,我不确定有多less个)和几个硬盘上做了很多工作。 超过1000TB的数据。

这些数据大部分可以重新生成,但这需要时间。 很多数据是存储在单独的RCS仓库中的代码,可以有自己的备份,但是工作副本当然是在普通的用户驱动器上。

有人能指出我是一个最佳实践文档,还是关于大多数公司如何保护这么多数据?

谢谢

  1. 雇用一名备用pipe理员或工程师。
  2. 给他或她你的要求和预算。 (这可能是一个迭代过程。)
  3. 做他/她所说的。

为您的业务需求devise有效的备份系统有很多。 您可以将数据快照到其他磁盘,然后镜像到场外(如果有另一个站点),或者发送到磁带,或直接从节点发送到磁带。 在不同时间备份数据可能会有并发问题 – 也许您的应用程序需要先导出或静默? 我们不知道,你没有告诉我们。 有很多技术问题和问题。

首先需要解决的是您的实际业务需求 – 您的RTO(您的数据恢复之前可以停机多长时间)以及RPO(在备份运行之间您可以承受多less数据丢失)? 这是否需要成为DR或业务连续性计划的一部分,或者如果build筑物被烧毁,您是否不再关心您的数据?