在大规模并行网格系统上进行备份的最佳实践

我在一家大公司的研究小组工作。我们在有很多节点的网格处理系统（200多个，我不确定有多less个）和几个硬盘上做了很多工作。超过1000TB的数据。

这些数据大部分可以重新生成，但这需要时间。很多数据是存储在单独的RCS仓库中的代码，可以有自己的备份，但是工作副本当然是在普通的用户驱动器上。

有人能指出我是一个最佳实践文档，还是关于大多数公司如何保护这么多数据？

谢谢

为您的业务需求devise有效的备份系统有很多。您可以将数据快照到其他磁盘，然后镜像到场外（如果有另一个站点），或者发送到磁带，或直接从节点发送到磁带。在不同时间备份数据可能会有并发问题 – 也许您的应用程序需要先导出或静默？我们不知道，你没有告诉我们。有很多技术问题和问题。

首先需要解决的是您的实际业务需求 – 您的RTO（您的数据恢复之前可以停机多长时间）以及RPO（在备份运行之间您可以承受多less数据丢失）？这是否需要成为DR或业务连续性计划的一部分，或者如果build筑物被烧毁，您是否不再关心您的数据？