对于这个话题,我真的很陌生,对于愚蠢的问题做了很大的道歉。
我有一个学校项目,我想知道如何存储250TB的数据,生命周期为18个月。 这意味着每个logging存储了18个月,这段时间之后可以删除。
有两个问题:
由于大量的数据,我可能需要结合数据磁带和硬盘驱动器。 我想“快速”访问3个月大的数据,所以〜42TB在磁盘上。 我真的不知道应该使用什么样的RAID,或者在这里比结合磁盘和数据磁带更好的解决scheme?
感谢您的任何build议,文章,任何事情。 我迷路了
250TB是很多数据。 我会给你一个例子,说明如何在企业中完成这个任务,这个任务与预算相关(因为我假设你想要这个廉价),而不是过度关心寻找最好的免费产品来完成这个工作。
只是一个参考 – 我正在写这个8年专业的存储世界和备份/灾难恢复世界。
我觉得这个学校项目更多的是关于如何去做这件事,而不是真的这样做?
首先,存储。
既然你没有提到任何具体的可用性或冗余的要求,我会build议build立一个基本的“ NearLine ”3TB SATA磁盘的JBODarrays。 在你估计的在线42TB的时候,你至less需要14个,忽略RAID的开销。 例如,如果您select16磁盘RAID组大小的RAID-6 ,则至less需要16个磁盘才能获得42 TB的可用空间,而且您仍然没有热备份。 在对可靠性,性能,冗余性和可用性要求有更好的了解之前,我无法推荐其他types的磁盘,RAIDtypes或控制器。
以最简单的forms,您可以使用相当便宜的商品硬件和Linux以及一些开源工具(如LVM , FreeNas , OpenFiler等)来构build这样一个arrays – 除此之外,您将开始进入价格昂贵的企业存储空间。
另外请记住,使用便宜的商品硬件来做到这一点不会考虑磁盘(电源,控制器,操作系统等)之外的其他冗余问题。
在企业领域,我认为你需要大量的读/写性能和高可用性。 作为一个例子 – 您可以使用NetApp Enterprise存储arrays和高度可用的集群冗余控制器。 附加到这些将是24 600克15千转SAS磁盘的抽屉。 为了从这样的设置中获得42tb,这将会performance的非常好,并且是高度可用的/冗余的,如果你是这样的话,你需要(假设64大NA集合的大小限制在16tb以上)包含大约5 16个磁盘RAID组configuration默认的RAID6-DP RAID级别。
这是至less有80个15k RPM 600GB SAS磁盘跨4个存储架连接到冗余arrays。
在这一点上,你需要机架和一些严重的电力和冷却,你的预算超过20万美元。
现在归档。
这里有很多select,可以使用无数的产品和方法来完成这部分任务。 因此,我将从使用特定应用程序(我知道可以很好地完成这项工作), IBM Tivoli Storage Manager (TSM)的angular度编写它。 我也会假设你没有任何异地灾难恢复要求,只需要存储大量的数据,而且磁盘在这一点上变得太昂贵了。
因此,要设置TSM,您需要另一台服务器,以及一些磁带机和/或自动磁带库 (ATL)。
安装数据的服务器将具有TSM客户端,您可以根据需要安排标准备份作业或归档作业。 这个计划的作业可以编写脚本,或者设置为将数据存档到磁带,然后将其从磁盘上删除 – 使其可以在磁带上脱机使用。 例如,您可以让脚本将超过90天的任何数据存档到磁带,然后将其删除。 这是另一个有无数的方法来完成这个任务的领域。
至于硬件方面 – LTO磁带可能是最好的select,LTO-5可以容纳每盒约1.5tb的未压缩数据。 所以,因为你需要超过200TB的数据才能在磁带上存储大约50TB的数据,所以你需要在这个项目上至less需要140个磁带。
把它一起
所以我们有一个存储arrays,还有一个“备份基础架构”。 让我们假设所有这些生命周期的事情都发生在一台服务器上。 你需要一种方法将它们联系在一起。 磁盘将通过SAN连接到服务器上吗? 通过networking? 你会使用什么协议? 所有这些决定都会影响您需要什么types的硬件。 只要看看磁带的需求,你可能至less需要一个小的ATL,这几乎可以保证你需要一个光纤通道SAN ,以及SAN交换机,适配器等等。你需要networking基础设施,networking通信要求。
我越写越多,我意识到这个项目不可能是真实的,我越来越less具体。 请记住,这是写了一些疯狂的假设和非常保守的估计 – TL的DR版本是 – 你将需要大量的硬件,大量的专业知识和大量的金钱来完成这项工作,即使完成最不可靠,最便宜的方式。 如果您需要更多帮助或信息,请随时联系我。
由于这是一个学校项目,我假设你不需要真正build立这个,只是规定了。 无论哪种方式,你应该阅读这两篇文章:
预算v2.0上的PB:揭示更多的秘密
为什么你不应该build立一个backblaze荚