你对Hadoop的磁盘有什么build议?
你推荐使用SAS,或者只是通过SATA连接磁盘? 或者也许别的东西? 每个选项的优缺点是什么?
(关于磁盘大小的决定已经完成,每个服务器上将会有大约5-6个2TB磁盘)
现代Hadoop安装通常为每个盒子使用几个消费级SATA驱动器。
每个节点的磁盘数量取决于您的应用程序的数量。 例如,在雅虎,他们大多数是磁盘大小的限制,所以每个节点的大量磁盘是合理的。 我已经看到了隐藏技术,可以饱和大量的驱动器通道,所以有很多磁盘的多个背板是有意义的。
如果你刚开始,我会推荐6×2TB SATA或12×2TB SATA。 有一些不错的Supermicro盒子,可以在一个2U机箱中为您提供四个节点,前面有12个驱动器,这个驱动器非常紧凑,但是每个节点只有2个2TB的驱动器可能会受到限制。 相同的2U机型也可以在面板上同一个12个驱动器托pipe1或2个节点。 由于底盘本身要花钱,这可能会有所作为。
另一个考虑是许多数据中心受每平方英尺功率的限制。 功耗在Hadoop集群中有两种分解方式,一种分配给CPU /内存,另外一大部分分配给驱动器。 由于这些限制可能使您无法使用超紧凑型4 x节点盒来填充机架,因此您可以继续使用单节点盒,以便在您认为合适的时候再添加驱动器。
如果您不受磁盘空间的限制,则应考虑总networking带宽。 有更多的网卡每个驱动器在这里很好,所以四方盒很好。
同样的,你的记忆要求是什么? 对于双核四核机器来说,24GB内存是相当标准的,但是你可能需要更多的东西,或者能够less花钱。 跨相同数量的驱动器拥有更大的内存总量可能对您的应用程序有好处。
那么,由于您使用Hadoop,冗余在应用程序中,因此您不需要考虑每个节点上有关存储的冗余。 当然,这应该在备份失败的情况下,通过很好的例程来重新使用节点。
我认为在RAID0中的2xSATA磁盘应该这样做。 但是我不确定你是否会因为Hadoop的性能而获得任何东西,这只会增加复杂性。
在这种情况下,我唯一需要考虑的性能问题就是SAS磁盘在高负载情况下通常performance得更好,但是只有您知道您的预期负载。
我想说的是,无论采用哪种方式,您都希望select企业级磁盘,Hadoop在整个24小时内可以相当密集,而且您希望有一个专为24/365操作而devise的磁盘,以及许多更便宜的磁盘这样做是可靠的。
WD的WD2003FYYS备受好评。
考虑到失败的devise和Hadoop会留下深刻的印象。 我使用非企业级驱动器运行我的所有群集,并且在我的24/7操作中没有失败。 节省的成本远远超过了任何潜在的故障,而且大多数磁盘都带有5年的保修期,所以您只需将它们发送到RMAd然后继续。
根据我的经验,我通常会在驱动器死亡之前升级驱动器,但是YMMV。
所有datanode应该运行ext2,不要运行日记,也不要使用任何RAID … Hadoop是你如何设置复制水平RAID。