如何备份分布式文件系统？

注：这是一个“理论上的”问题，因为我还没有那种数据。

如果你有一个分布式的文件系统跨越十几个或更多的服务器和TB的数据，你如何执行备份？本地磁带驱动器不是一个选项，因为我正在租用服务器，并且没有物理访问权限。我看到它的方式，我只需要有一个与源集群成比例的备份集群。并行发送所有这些数据可能会使数据饱和，从而导致吞吐量下降。但备份都必须同时进行，因此循环备份似乎没有意义。解决这个问题的方法之一就是只保留大部分（在我的情况下）驱动器，剩下的部分用于旋转本地LVM快照。不幸的是，如果服务器受到威胁，那么这种备份将毫无用处。是否有其他选项可以创build不会中断networking的时间点备份？

[编辑]解决scheme：

1）将（接近）实时全部数据集复制到一个大的本地备份服务器，因此带宽使用和IO在一天中分布，本地带宽通常是“空闲”的。

2）创buildclosures该机器的真实备份并将其发送到现场。如果将所有数据组合在一起，则应该很容易地执行差异备份，这可以节省计费带宽。

如果您发现可以在备份窗口中复制更多数据 – 那么您需要考虑使用单独的基础结构实时复制整个数据集，或者尽可能接近地复制整个数据集。（不同的子网，VLAN，不同的pipe道，以外的工作等）

我会使用iSCSI，实际上，我会使用openfiler将我的后端数据复制到外部世界，以及可以使用openfiler获得的其他好东西。

否则，我会在本地使用DRDB（假设为linux），并将其复制到其他几个服务器，然后运行我的备份。

我可以提供的最好的build议是分离他们的关键数据，并确保将其复制到冗余磁盘空间，如SAN或最less的NAS。这样，您就可以部署任何您想要的本地备份机制，因为您的关键数据无论如何都会被复制到异地。这是一种痛苦，pipe理层一开始可能不同意，但要求他们做一个星期的宕机时间会损失多less的数字，你会发现你的预算会奇迹般地增加！

所以服务器在同一地点，嗯…

我会将一台服务器添加到位于同一地点的服务器场，并让它接收所有DFS数据的副本。带宽不是一个问题，因为它是本地的。然后，该服务器可以处理压缩和复制异地数据的处理。
然后，我将使用该服务器自带的带宽复制到辅助站点。有“云备份”解决scheme，将只复制位级别的变化。通过压缩发送的数据来节省带宽。除了压缩，数据通常是encryption的。

这个解决scheme正变得越来越普遍，越来越多的厂商提供备份软件和存储。最初购买备用物品时，通常意味着更多的议价能力。

这个想法适用于Linux或Windows。具体的软件将取决于你的预算和你使用的操作系统。

其他的东西要考虑。您的总数据可能是10TB。使用传统备份每日更改的数据可能为200GB。但是，比特级别的变化可能只有30GB。如果数据被压缩，那么你可能会下降到20GB。您需要知道您的数据，然后才能进行适当的计划。