内容服务器备份

在内容服务器上备份数据的最佳方法是什么？例如，我有15个服务器只有内容，没有运行应用程序。每台服务器都有一个250 GB的硬盘。所以，这是相当多的数据。所有的数据都有外部访问（通过HTTP）。所以问题是：在我的情况下最好的方法是什么？

我所知道的最有用的方法是交叉备份：当每个服务器包含自己的数据和另一个服务器的备份。但是，总容量显着减less。

袭击？

RAID不是备份。

既然这样，如果你有15台服务器只有内容，而每台服务器都是250GB的话，现在是时候问自己一些问题了。

0）数据应该集中吗？

除非您恰好想要在15台计算机上pipe理存储，否则您应该可以拍摄合并的托pipe存储。这确实带来了成本，但是，存储是便宜的。 pipe理存储是昂贵的。如果您不想（或不能）集中pipe理，则需要磁带解决scheme。最便宜的解决scheme将是一个服务器与大量磁盘（在RAIDconfiguration中）连接到一个非常大的磁带更换器（理想情况下，因为你不想每天手动更换磁带，我假设）。你也可以得到15个磁带驱动器，并将每个附加到服务器，但这是愚蠢的。

1）您的数据保留政策是什么？

换句话说，你是要永久保存数据，还是在有限的时间内保存数据

2）你的尺寸是多less？

你的数据每天变化多less？这需要考虑到未来的存储计划中。设备采购不仅仅是IT相关的。会计需要考虑在内。如果您贬值3年以上的购买，您需要购买将持续3年的存储。做math或者稍后付出代价。

3）你要把它放在哪里？

15 * 250 =很多数据，正如你所提到的那样。你必须弄清楚你要把它放在哪里。如果你想要它是“活”的，你必须得到某种存储arrays。如果你想把它备份到磁带，你将需要一个磁带更换器连接到一个大的存储服务器。

4）有多less数据是其他服务器的副本？

如果您集中存储，您将有机会投资于具有“重复数据删除”function的存储arrays，这样可以节省数吨和数吨的空间。实质上，如果这里的文件和那里的文件具有相同的数据，则数据只存储一次，而令牌存储在每个小于原始数据的地方。提供这种解决scheme是昂贵的，但。

请告诉我们更多关于当前的networking拓扑，数据特征，服务器细节，以及其他任何你可以。

RAID不是备份。跟我一起说吧，一遍又一遍地重复一遍。 RAID可以保护您免受设备故障，但不会造成灾难。

无论你做什么，保持离线备份都是至关重要的。如果有人可以恶意地或意外地清除所有备份，因为它们都可以通过networking在线访问，那么您的备份就不是真正的备份。（请阅读“avsim.com”发生什么事情时，如果你想看看我在说什么，他们被黑了）。

Raid只会在硬件故障的情况下为您提供备份。你需要备份软件来制作另一台服务器上所有内容的副本，最好在不同的地理位置。

我会购买一台带有几个1TB硬盘的备份服务器，并将所有数据备份到备份服务器上。

从以前关于备份的问题中得到了这个答案，因为我相信它仍然适用于这里（仅供参考，而不是别人的答案）：

根据你需要备份多less，我会build议如下：

1.JungleDisk /亚马逊S3 – 工作得很好。

2.RSYNC到远程机器也工作得很好。 CRON每XX小时工作一次。

我们将近一TB的数据备份到亚马逊的S3云，并且在我们的colo每天数次备份（通过rsync）的“热备份”。 Amazon S3上的传输/存储成本非常低廉。（即比刻录DVD要便宜，而不是比备份硬盘便宜，我知道有些人只需将1TB UDB“我的书”或其他东西插入服务器，并每周/每月备份一次。其中一个或两个可能是最便宜的解决scheme。

现在这只是谈论数据备份…不备份服务器本身…

根据您的需要，Norton Ghost甚至Acronis（ http://www.acronis.com ）可能对您有所帮助。像Norton Ghost这样的东西往往依靠你的能力来实际上closures计算机来做备份。我们中的一些人没有这种奢侈品，但如果你这样做，那么诺顿精灵是一个非常好的产品。

不应将RAID用作备份解决scheme。我会得到外部驱动器或设置备份服务器像BackupPC的东西，然后旋转磁盘和至less存储一个场外复制。

如果您愿意付出沉重的代价，我们会在整个平台上使用R1Soft CDP 。这个很不错。

什么样的数据？数据库？普通文件？你需要它是一个现场同步？

在数据库的情况下，一些备份解决scheme将允许恢复到任何点。

我们也正在进入成本，质量，速度三angular。牺牲一个得到另外两个。

这种情况下的成本就是金钱。质量是备份的细节。（更多的点恢复，场外价值）和速度是你获得或失去了不同的解决scheme的performance。

找出更重要的东西可以帮助您决定解决scheme。

像MogileFS这样的东西在这种情况下将能够提供帮助。这是一个没有单点故障的大规模存储解决scheme，而不是整个系统的支持，在集群周围散布着多个数据副本。单个驱动器（或主轴）可能会失败，但是文件越重要，则在群集周围将存在越多的副本。可以很容易地重新创build的缩略图可能只有1或2个副本，但根据文件所属的数据类别，原始图片可能会更多。

Google和Facebook使用类似的技术来存储他们自己的文件。

那么，这个架构是：

15服务器与HTTP服务器，所有文件是规则的（没有数据库，没有应用程序），并可供下载（文件共享项目）。他们正在MogileFS下运行。

几个应用程序服务器，我不计算在他们自己的生活的情况下。备份的要点是：如果发生什么事情，我将尽可能快地从备份中分发数据。

所以，我说RAID是一个选项，当然这不是一个备份解决scheme，但是这将有助于减less总体故障。

作为一个真正的select，我看到了Amazon S3的简单API，在这个API上我已经有了一个日常数据库备份的账户。

而我的兴趣很简单，我只想知道人们如何处理这样的任务。

如果你真的想要备份接近4TB的数据，而这些数据是你正在讨论的15台服务器，每台服务器有250GB，那么你需要回答很多问题。

1.有多less数据已经在您的环境中有意或无意复制？
如果你有大量的重复数据，你可以大大减less你的消耗空间和你需要备份的数据量。

2.你能把数据集中到less量的服务器上吗？
修补，授权和维护15台服务器是一个耗时的过程，可以合并到一个NAS或SAN 。如果权限得到正确pipe理（这是我们用户在整理存储时最大的抱怨，他们觉得如果他们没有自己的OWN服务器，人们可以看到他们的数据，那么把它们结合起来就不会造成任何“安全风险”。）如果因为地理上的原因而无法把它们全部压缩，这是可以理解的。这也将改变您的备份策略，因为没有人想要通过广域网将大量数据拖放到备份中。

3.你为什么要备份你的数据？ 失效者恢复？防止意外删除？潜在的硬件故障？上述所有的？这些答案驱动你的保留窗口和你的方法。正如其他人所说，RAID只是对付硬件故障，如果你删除了一个RAID集上的文件，它就好像没有了。如果你需要找回用户已经删除的东西，那么你必须知道数据使用的频率。对一个仅使用一个季度的文件进行备份一个月，意味着当他们发现文件已经消失时，您将不会拥有该文件。我不是主张在这里保留3个月的增量数据，但保留月份结束，保留一年可能是一个好主意。如果灾难恢复是一个考虑因素，那么您需要考虑将数据从服务器上取走。也知道你为什么要备份会告诉你多久你应该备份。使用夜间增量备份或差异备份进行每周完整备份是一种传统的方法，也是一种很好的默认备份方式，但是如果数据变化非常快或非常缓慢，则这种情况往往不够常见。

4.你有多less预算备份？ 这将是你最终select的一个重要决定因素。对于4 TB的数据都在一个位置，我会去换一些小型磁带更换器和备份软件来自动备份。或者可能对于具有重复数据删除的基于磁盘的备份单元。交叉备份从一开始便宜，但不提供任何灾难恢复价值，并随着数据集越来越大而变得更加昂贵。还有一些服务可以在互联网上备份数据，即使是在这种规模的情况下，也可以使用encryption和重复数据删除的自动化forms进行备份，如果您的数据位于多个站点上，可能会更好。