Hadoop磁盘失败,你做什么?

我想知道一个Hadoop服务器磁盘发生故障时应该怎么做的策略。

比方说,我有多个(> 15个)Hadoop服务器和1个名称节点,并且从属设备上的6个磁盘中的一个停止工作,磁盘通过SAS连接。 我不关心从这个磁盘检索数据,而是关于保持群集运行的一般策略。

你是做什么?

我们部署了hadoop。 您可以指定文件的复制号码。 多less次文件被复制。 Hadoop在namenode上有一个单点故障。 如果您担心磁盘出了问题,请将复制数量增加到3个或更多。

那么如果磁盘坏了,那很简单。 抛出并重新格式化。 Hadoop会自动调整。 事实上,一旦磁盘出现问题,它将开始重新平衡文件以维护复制数量。

我不知道为什么你有这么大的奖金。 你说你不在乎检索数据。 Hadoop在名称节点上只有一个单点故障。 所有其他节点都是可消耗的。

你提到这个系统是被遗传的(可能不是最新的),并且负载发射表示可能的无限循环。 这个错误报告描述你的情况?

https://issues.apache.org/jira/browse/HDFS-466

如果是这样的话,在最新的HDFS 0.21.0(刚刚发布)中已经报道了这个问题:

http://hadoop.apache.org/hdfs/docs/current/releasenotes.html

免责声明:令我失望的是,我还没有必要使用Hadoop / HDFS 🙂