在内容服务器上备份数据的最佳方法是什么? 例如,我有15个服务器只有内容,没有运行应用程序。 每台服务器都有一个250 GB的硬盘。 所以,这是相当多的数据。 所有的数据都有外部访问(通过HTTP)。 所以问题是:在我的情况下最好的方法是什么?
我所知道的最有用的方法是交叉备份:当每个服务器包含自己的数据和另一个服务器的备份。 但是,总容量显着减less。
袭击?
RAID不是备份。
既然这样,如果你有15台服务器只有内容,而每台服务器都是250GB的话,现在是时候问自己一些问题了。
0)数据应该集中吗?
除非您恰好想要在15台计算机上pipe理存储,否则您应该可以拍摄合并的托pipe存储。 这确实带来了成本,但是,存储是便宜的。 pipe理存储是昂贵的。 如果您不想(或不能)集中pipe理,则需要磁带解决scheme。 最便宜的解决scheme将是一个服务器与大量磁盘(在RAIDconfiguration中)连接到一个非常大的磁带更换器(理想情况下,因为你不想每天手动更换磁带,我假设)。 你也可以得到15个磁带驱动器,并将每个附加到服务器,但这是愚蠢的。
1)您的数据保留政策是什么?
换句话说,你是要永久保存数据,还是在有限的时间内保存数据
2)你的尺寸是多less?
你的数据每天变化多less? 这需要考虑到未来的存储计划中。 设备采购不仅仅是IT相关的。 会计需要考虑在内。如果您贬值3年以上的购买,您需要购买将持续3年的存储。 做math或者稍后付出代价。
3)你要把它放在哪里?
15 * 250 =很多数据,正如你所提到的那样。 你必须弄清楚你要把它放在哪里。 如果你想要它是“活”的,你必须得到某种存储arrays。 如果你想把它备份到磁带,你将需要一个磁带更换器连接到一个大的存储服务器。
4)有多less数据是其他服务器的副本?
如果您集中存储,您将有机会投资于具有“重复数据删除”function的存储arrays,这样可以节省数吨和数吨的空间。 实质上,如果这里的文件和那里的文件具有相同的数据,则数据只存储一次,而令牌存储在每个小于原始数据的地方。 提供这种解决scheme是昂贵的,但。
请告诉我们更多关于当前的networking拓扑,数据特征,服务器细节,以及其他任何你可以。
RAID不是备份。 跟我一起说吧,一遍又一遍地重复一遍。 RAID可以保护您免受设备故障,但不会造成灾难。
无论你做什么,保持离线备份都是至关重要的。 如果有人可以恶意地或意外地清除所有备份,因为它们都可以通过networking在线访问,那么您的备份就不是真正的备份。 (请阅读“avsim.com”发生什么事情时,如果你想看看我在说什么,他们被黑了)。
Raid只会在硬件故障的情况下为您提供备份。 你需要备份软件来制作另一台服务器上所有内容的副本,最好在不同的地理位置。
我会购买一台带有几个1TB硬盘的备份服务器,并将所有数据备份到备份服务器上。
从以前关于备份的问题中得到了这个答案,因为我相信它仍然适用于这里(仅供参考,而不是别人的答案):
根据你需要备份多less,我会build议如下:
1.JungleDisk /亚马逊S3 – 工作得很好。
2.RSYNC到远程机器也工作得很好。 CRON每XX小时工作一次。
我们将近一TB的数据备份到亚马逊的S3云,并且在我们的colo每天数次备份(通过rsync)的“热备份”。 Amazon S3上的传输/存储成本非常低廉。 (即比刻录DVD要便宜,而不是比备份硬盘便宜,我知道有些人只需将1TB UDB“我的书”或其他东西插入服务器,并每周/每月备份一次。其中一个或两个可能是最便宜的解决scheme。
现在这只是谈论数据备份…不备份服务器本身…
根据您的需要,Norton Ghost甚至Acronis( http://www.acronis.com )可能对您有所帮助。 像Norton Ghost这样的东西往往依靠你的能力来实际上closures计算机来做备份。 我们中的一些人没有这种奢侈品,但如果你这样做,那么诺顿精灵是一个非常好的产品。
不应将RAID用作备份解决scheme。 我会得到外部驱动器或设置备份服务器像BackupPC的东西,然后旋转磁盘和至less存储一个场外复制。
如果您愿意付出沉重的代价 ,我们会在整个平台上使用R1Soft CDP 。 这个很不错。
什么样的数据? 数据库? 普通文件? 你需要它是一个现场同步?
在数据库的情况下,一些备份解决scheme将允许恢复到任何点。
我们也正在进入成本,质量,速度三angular。 牺牲一个得到另外两个。
这种情况下的成本就是金钱。 质量是备份的细节。 (更多的点恢复,场外价值)和速度是你获得或失去了不同的解决scheme的performance。
找出更重要的东西可以帮助您决定解决scheme。
像MogileFS这样的东西在这种情况下将能够提供帮助。 这是一个没有单点故障的大规模存储解决scheme,而不是整个系统的支持,在集群周围散布着多个数据副本。 单个驱动器(或主轴)可能会失败,但是文件越重要,则在群集周围将存在越多的副本。 可以很容易地重新创build的缩略图可能只有1或2个副本,但根据文件所属的数据类别,原始图片可能会更多。
Google和Facebook使用类似的技术来存储他们自己的文件。
那么,这个架构是:
15服务器与HTTP服务器,所有文件是规则的(没有数据库,没有应用程序),并可供下载(文件共享项目)。 他们正在MogileFS下运行。
几个应用程序服务器,我不计算在他们自己的生活的情况下。 备份的要点是:如果发生什么事情,我将尽可能快地从备份中分发数据。
所以,我说RAID是一个选项,当然这不是一个备份解决scheme,但是这将有助于减less总体故障。
作为一个真正的select,我看到了Amazon S3的简单API,在这个API上我已经有了一个日常数据库备份的账户。
而我的兴趣很简单,我只想知道人们如何处理这样的任务。
如果你真的想要备份接近4TB的数据,而这些数据是你正在讨论的15台服务器,每台服务器有250GB,那么你需要回答很多问题。
1.有多less数据已经在您的环境中有意或无意复制?
如果你有大量的重复数据,你可以大大减less你的消耗空间和你需要备份的数据量。
2.你能把数据集中到less量的服务器上吗?
修补,授权和维护15台服务器是一个耗时的过程,可以合并到一个NAS或SAN 。 如果权限得到正确pipe理(这是我们用户在整理存储时最大的抱怨,他们觉得如果他们没有自己的OWN服务器,人们可以看到他们的数据,那么把它们结合起来就不会造成任何“安全风险”。 )如果因为地理上的原因而无法把它们全部压缩,这是可以理解的。 这也将改变您的备份策略,因为没有人想要通过广域网将大量数据拖放到备份中。
3.你为什么要备份你的数据? 失效者恢复? 防止意外删除? 潜在的硬件故障? 上述所有的? 这些答案驱动你的保留窗口和你的方法。 正如其他人所说,RAID只是对付硬件故障,如果你删除了一个RAID集上的文件,它就好像没有了。 如果你需要找回用户已经删除的东西,那么你必须知道数据使用的频率。 对一个仅使用一个季度的文件进行备份一个月,意味着当他们发现文件已经消失时,您将不会拥有该文件。 我不是主张在这里保留3个月的增量数据,但保留月份结束,保留一年可能是一个好主意。 如果灾难恢复是一个考虑因素,那么您需要考虑将数据从服务器上取走。 也知道你为什么要备份会告诉你多久你应该备份。 使用夜间增量备份或差异备份进行每周完整备份是一种传统的方法,也是一种很好的默认备份方式,但是如果数据变化非常快或非常缓慢,则这种情况往往不够常见。
4.你有多less预算备份? 这将是你最终select的一个重要决定因素。 对于4 TB的数据都在一个位置,我会去换一些小型磁带更换器和备份软件来自动备份。 或者可能对于具有重复数据删除的基于磁盘的备份单元。 交叉备份从一开始便宜,但不提供任何灾难恢复价值,并随着数据集越来越大而变得更加昂贵。 还有一些服务可以在互联网上备份数据,即使是在这种规模的情况下,也可以使用encryption和重复数据删除的自动化forms进行备份,如果您的数据位于多个站点上,可能会更好。