硬件/软件devise：2PB的存储空间

免责声明是的，我要求你为我devise一个系统:)

我的任务是devise一个系统来存储大约10TB /天，保留时间为180天。

我的第一个方法是使用GlusterFS并使用像这样的硬件设置：

系统中的单个节点：

1个带有HP Smart Array P812控制器的 HP ProLiant DL180 G6
8 惠普D2600瓦特/ 12 2 TB 6G SAS 7.2K LFF双端口MDL硬盘24 TB捆绑
106存储磁盘（2个操作系统磁盘，10个服务器数据磁盘，96个分布在8个机架上）

我需要9个节点来获得可以容纳数据的networking存储（没有复制或在本地磁盘上的RAID）。

优点：

我可以从一台没有架子的服务器开始
通过在一台服务器上添加机架（或者添加服务器，通过首先添加节点或者首先添加机架或者两者的组合来增加机架的扩展）
“无限”地缩放（对于“无限”的某些定义）

缺点：

一般来说：我实际上不知道如何validation这一点，一旦达到扩展的最后阶段（1.8 PB估计），这将是一个可行的设置。

我没有任何实际的首选方向，只有GlusterFS的一些经验，我已经使用GlusterFS的4 TB系统（分布式，复制，4个节点）。

我敢肯定，这个设置运行Hadoop / Gluster / Netapp / EMC / Hitachi / EveryoneElse没有什么太大差别，但是用例是（ drumroll ）：

ls -ltr | grep 'something' | xargs grep somethingelse

是的，这是可怕的。我试图说服人们实际上对这些数据进行真正的分析工作，但似乎不会发生。（确定没有那么糟糕，但是这些人会在一些“分析”系统上使用一个简单的ssh会话来手动到某个目录，recursion地查看一些文件，然后确定数据是否正确，现在听起来更糟我写的）

我对任何想法都持开放态度，我的公司内部有一些运营“大型存储”的人（例如，一个备份系统有2PB），我愿意随意使用已有的工作。但是我也必须certificate他们做的是正确的事情（请不要问这是一件政治事情，我会把我的数据信任给存储团队，我不知道为什么我要重复这个工作）

思考如何实际运行数据分析的问题明显超出范围。

有无数的会议，我提出了从Splunk到分析内部开发的任何工作（有和/或没有Map / Reduce系统）。对此没有兴趣。所有人关心的是：

10TB /天
保存数据180天
使其高度可用（尚未完全定义，但沿99.9,99.99 …）

那么，你没有提到预算…所以现在就买这个。这个规模的数据可能应该留在拥有该领域经验的团队手中。有支持和有人大喊:)

http://www.racktopsystems.com/products/brickstor-superscalar/

http://www.racktopsystems.com/products/brickstor-superscalar/tech-specs/

 4 x Storage Heads BrickStor Foundation Units 10 x BrickStor Bricks (36 x 3.5″ Bay JBOD) 2 x 16-port SAS switch 1 x pullout rackmount KVM 1 x 48U Rack 1 x 10Gb Network Switch (24 x 10Gb non-Blocking) NexentaStor Plug-ins:VMDC, WORM, HA-cluster or Simple-HA Onsite installation 5-days 24/7/365 day email and phone support Onsite Support

由于您描述的应用程序似乎并不在集群存储领域（在给定用例的情况下），因此请使用ZFS。您将获得无限的可伸缩性。您将有机会将一些压缩内容卸载到存储系统，并且可以告诉所有您的朋友:)

此外，L2ARCcaching（使用SSD）将以SSD速度保持热分析数据的可用性。

编辑：另一个基于ZFS的解决scheme – http://www.aberdeeninc.com/abcatg/petarack.htm

此外，红帽目前正处于横向扩展的存储行业。

请参阅： http : //www.redhat.com/products/storage/storage-software/

由于MDMarra提到您需要Splunk，所以我是一个大用户和粉丝，与您讨论的内容非常相似，这样可以节省您在附近的存储空间购买任何产品，并降低所有复杂性。如果与Splunk一起使用，一个体面的大servlets器（可能最大150-200TB）将完成这项工作，它的即时索引是这类事情的完美select，它的searchfunction远远超过你自己pipe理的任何东西。这当然不是免费的，但我不会考虑其他任何事情。