什么会导致内核挂在红帽4？

我必须解决一个十台机器“丛集”上的一个令人讨厌的问题：在硬计算过程中，随机地将这些机器中的一个挂起，有时候还是不能ping通。

问题在电话里描述了我，我还没有碰到/看到这些机器，所以我不能更精确。它似乎没有（真正的）键盘或显示器链接到他们，所以我没有任何关于键盘或显示器上的消息。

不用担心，我真正需要的是一些build议，在哪里可以find问题，以及有关可能导致内核在工作机器上挂起的一些build议。

我也看到这个post ，但似乎需要在不同的情况下。

我的想法从现在开始：
– 硬件问题（RAM，CPU，风扇等）
– 不好的autofsconfiguration
– 错误的nfs（？）configuration
– 存在木马/黑客/等
– / dev /“swap”链接到/ dev / zero
– 内存不足（??）
– 内核窃听

换句话说，我试图想象会发生什么样的事件，可能会崩溃生成事件的应用程序的内核。

YOU以前经历过什么？写给我！

TIA

首先，虽然RHEL 4本身已经非常老了，但它仍然保持不变，您可以尝试使用最新的修补程序进行更新（请参阅维基信息）。

内核恐慌/挂起可能来自一堆原因。我经历的主要是由于

内存问题：在CD上安装（例如）一个Ubuntu版本，并启动它只是运行memtest86+ ，它主动检查内存（可能需要一些时间来揭示一个问题）。
硬件问题：造成意外的中断，使系统处于不可恢复的状态，将内核执行发送到“空间”，破坏堆栈…
模块问题：一个不适当的模块（一个与硬件不完全匹配的模块，或者一个被窃听的模块）具有特权的访问权限，可能会挂起系统。老的内核特别危险（新版本更好的恢复有一个有缺陷的模块问题）。

也看到了由于的神秘（旧）系统挂起

主板CMOS电池已经死了（改变它，很便宜）。
网线不好

也许正确的时机升级到一个更新的系统（现在没有什么错误，例如Ubuntu 10.04.1 LTS的服务器）。

RHEL 4盒（或任何盒子）可以挂起无数的方式。你需要收集更多的信息。我会从挂起时的日志开始。你也可以设置NMI看门狗，如果它被挂在内核中，就会强制一个盒子的恐慌，当netconsolelogging控制台信息的时候。如果系统刚刚在沉重的负载下死亡，如果没有完全挂在内核本身就无法响应，您可以设置挂表来触发各种诊断消息（转储到日志或通过networking控制台），或者如果命中某个负载阈。