我必须解决一个十台机器“丛集”上的一个令人讨厌的问题:在硬计算过程中,随机地将这些机器中的一个挂起,有时候还是不能ping通。
问题在电话里描述了我,我还没有碰到/看到这些机器,所以我不能更精确。 它似乎没有(真正的)键盘或显示器链接到他们,所以我没有任何关于键盘或显示器上的消息。
不用担心,我真正需要的是一些build议,在哪里可以find问题,以及有关可能导致内核在工作机器上挂起的一些build议。
我也看到这个post ,但似乎需要在不同的情况下。
我的想法从现在开始:
– 硬件问题(RAM,CPU,风扇等)
– 不好的autofsconfiguration
– 错误的nfs(?)configuration
– 存在木马/黑客/等
– / dev /“swap”链接到/ dev / zero
– 内存不足(??)
– 内核窃听
换句话说,我试图想象会发生什么样的事件,可能会崩溃生成事件的应用程序的内核。
YOU以前经历过什么? 写给我!
TIA
首先,虽然RHEL 4本身已经非常老了,但它仍然保持不变,您可以尝试使用最新的修补程序进行更新(请参阅维基信息 )。
内核恐慌/挂起可能来自一堆原因。 我经历的主要是由于
内存问题:在CD上安装(例如)一个Ubuntu版本,并启动它只是运行memtest86+ ,它主动检查内存(可能需要一些时间来揭示一个问题)。
硬件问题:造成意外的中断,使系统处于不可恢复的状态,将内核执行发送到“空间”,破坏堆栈…
模块问题:一个不适当的模块(一个与硬件不完全匹配的模块,或者一个被窃听的模块)具有特权的访问权限,可能会挂起系统。 老的内核特别危险(新版本更好的恢复有一个有缺陷的模块问题)。
也看到了由于的神秘(旧)系统挂起
主板CMOS电池已经死了(改变它,很便宜)。
网线不好
也许正确的时机升级到一个更新的系统(现在没有什么错误,例如Ubuntu 10.04.1 LTS的服务器)。
RHEL 4盒(或任何盒子)可以挂起无数的方式。 你需要收集更多的信息。 我会从挂起时的日志开始。 你也可以设置NMI看门狗,如果它被挂在内核中,就会强制一个盒子的恐慌,当netconsolelogging控制台信息的时候。 如果系统刚刚在沉重的负载下死亡,如果没有完全挂在内核本身就无法响应,您可以设置挂表来触发各种诊断消息(转储到日志或通过networking控制台),或者如果命中某个负载阈。