Hadoop磁盘失败，你做什么？

我想知道一个Hadoop服务器磁盘发生故障时应该怎么做的策略。

比方说，我有多个（> 15个）Hadoop服务器和1个名称节点，并且从属设备上的6个磁盘中的一个停止工作，磁盘通过SAS连接。我不关心从这个磁盘检索数据，而是关于保持群集运行的一般策略。

你是做什么？

我们部署了hadoop。您可以指定文件的复制号码。多less次文件被复制。 Hadoop在namenode上有一个单点故障。如果您担心磁盘出了问题，请将复制数量增加到3个或更多。

那么如果磁盘坏了，那很简单。抛出并重新格式化。 Hadoop会自动调整。事实上，一旦磁盘出现问题，它将开始重新平衡文件以维护复制数量。

我不知道为什么你有这么大的奖金。你说你不在乎检索数据。 Hadoop在名称节点上只有一个单点故障。所有其他节点都是可消耗的。

你提到这个系统是被遗传的（可能不是最新的），并且负载发射表示可能的无限循环。这个错误报告描述你的情况？

如果是这样的话，在最新的HDFS 0.21.0（刚刚发布）中已经报道了这个问题：

免责声明：令我失望的是，我还没有必要使用Hadoop / HDFS 🙂