我有一个hadoop集群~7台机器,有些机器继续下去。 有时,hadoop datanode / jobtracker进程只会死亡(机器仍在运行),有时候,整个机器停机。
我没有真正debugging过这样的情况,所以我想知道我应该从哪里开始 – 就像我应该看看的日志。 /logs/目录下的日志文件 – 像hadoop-dev-datanode-X.log这样的文件似乎没有任何用处。 另外,如果Linux机器出现故障,应该在哪里寻找错误信息?
/logs/
hadoop-dev-datanode-X.log