免责声明是的,我要求你为我devise一个系统:)
我的任务是devise一个系统来存储大约10TB /天,保留时间为180天。
我的第一个方法是使用GlusterFS并使用像这样的硬件设置:
系统中的单个节点:
我需要9个节点来获得可以容纳数据的networking存储(没有复制或在本地磁盘上的RAID)。
优点:
缺点:
我没有任何实际的首选方向,只有GlusterFS的一些经验,我已经使用GlusterFS的4 TB系统(分布式,复制,4个节点)。
我敢肯定,这个设置运行Hadoop / Gluster / Netapp / EMC / Hitachi / EveryoneElse没有什么太大差别,但是用例是( drumroll ):
ls -ltr | grep 'something' | xargs grep somethingelse
是的,这是可怕的。 我试图说服人们实际上对这些数据进行真正的分析工作,但似乎不会发生。 ( 确定没有那么糟糕,但是这些人会在一些“分析”系统上使用一个简单的ssh会话来手动到某个目录,recursion地查看一些文件,然后确定数据是否正确,现在听起来更糟我写的 )
我对任何想法都持开放态度,我的公司内部有一些运营“大型存储”的人(例如,一个备份系统有2PB),我愿意随意使用已有的工作。 但是我也必须certificate他们做的是正确的事情(请不要问这是一件政治事情,我会把我的数据信任给存储团队,我不知道为什么我要重复这个工作)
思考如何实际运行数据分析的问题明显超出范围。
有无数的会议,我提出了从Splunk到分析内部开发的任何工作(有和/或没有Map / Reduce系统)。 对此没有兴趣。 所有人关心的是:
那么,你没有提到预算…所以现在就买这个。 这个规模的数据可能应该留在拥有该领域经验的团队手中。 有支持和有人大喊:)
http://www.racktopsystems.com/products/brickstor-superscalar/
http://www.racktopsystems.com/products/brickstor-superscalar/tech-specs/
4 x Storage Heads BrickStor Foundation Units 10 x BrickStor Bricks (36 x 3.5″ Bay JBOD) 2 x 16-port SAS switch 1 x pullout rackmount KVM 1 x 48U Rack 1 x 10Gb Network Switch (24 x 10Gb non-Blocking) NexentaStor Plug-ins:VMDC, WORM, HA-cluster or Simple-HA Onsite installation 5-days 24/7/365 day email and phone support Onsite Support
由于您描述的应用程序似乎并不在集群存储领域(在给定用例的情况下),因此请使用ZFS。 您将获得无限的可伸缩性。 您将有机会将一些压缩内容卸载到存储系统,并且可以告诉所有您的朋友:)
此外,L2ARCcaching(使用SSD)将以SSD速度保持热分析数据的可用性。
编辑:另一个基于ZFS的解决scheme – http://www.aberdeeninc.com/abcatg/petarack.htm
此外,红帽目前正处于横向扩展的存储行业。
请参阅: http : //www.redhat.com/products/storage/storage-software/
由于MDMarra提到您需要Splunk,所以我是一个大用户和粉丝,与您讨论的内容非常相似,这样可以节省您在附近的存储空间购买任何产品,并降低所有复杂性。 如果与Splunk一起使用,一个体面的大servlets器(可能最大150-200TB)将完成这项工作,它的即时索引是这类事情的完美select,它的searchfunction远远超过你自己pipe理的任何东西。 这当然不是免费的,但我不会考虑其他任何事情。