注:这是一个“理论上的”问题,因为我还没有那种数据。
如果你有一个分布式的文件系统跨越十几个或更多的服务器和TB的数据,你如何执行备份? 本地磁带驱动器不是一个选项,因为我正在租用服务器,并且没有物理访问权限。 我看到它的方式,我只需要有一个与源集群成比例的备份集群。 并行发送所有这些数据可能会使数据饱和,从而导致吞吐量下降。 但备份都必须同时进行,因此循环备份似乎没有意义。 解决这个问题的方法之一就是只保留大部分(在我的情况下)驱动器,剩下的部分用于旋转本地LVM快照。 不幸的是,如果服务器受到威胁,那么这种备份将毫无用处。 是否有其他选项可以创build不会中断networking的时间点备份?
[编辑]解决scheme:
1)将(接近)实时全部数据集复制到一个大的本地备份服务器,因此带宽使用和IO在一天中分布,本地带宽通常是“空闲”的。
2)创buildclosures该机器的真实备份并将其发送到现场。 如果将所有数据组合在一起,则应该很容易地执行差异备份,这可以节省计费带宽。
如果您发现可以在备份窗口中复制更多数据 – 那么您需要考虑使用单独的基础结构实时复制整个数据集,或者尽可能接近地复制整个数据集。 (不同的子网,VLAN,不同的pipe道,以外的工作等)
我会使用iSCSI,实际上,我会使用openfiler将我的后端数据复制到外部世界,以及可以使用openfiler获得的其他好东西。
否则,我会在本地使用DRDB(假设为linux),并将其复制到其他几个服务器,然后运行我的备份。
我可以提供的最好的build议是分离他们的关键数据,并确保将其复制到冗余磁盘空间,如SAN或最less的NAS。 这样,您就可以部署任何您想要的本地备份机制,因为您的关键数据无论如何都会被复制到异地。 这是一种痛苦,pipe理层一开始可能不同意,但要求他们做一个星期的宕机时间会损失多less的数字,你会发现你的预算会奇迹般地增加!
所以服务器在同一地点,嗯…
这个解决scheme正变得越来越普遍,越来越多的厂商提供备份软件和存储。 最初购买备用物品时,通常意味着更多的议价能力。
这个想法适用于Linux或Windows。 具体的软件将取决于你的预算和你使用的操作系统。
其他的东西要考虑。 您的总数据可能是10TB。 使用传统备份每日更改的数据可能为200GB。 但是,比特级别的变化可能只有30GB。 如果数据被压缩,那么你可能会下降到20GB。 您需要知道您的数据,然后才能进行适当的计划。