我在服务器上运行CentOS 5.5。 它运行多个VMware虚拟机和一个NFS服务器。
偶尔,像今天一样,它挂起。 / var / log / messages中没有任何信息指出任何问题。 (我注意到/ var / log / messages不是按时间顺序的。)
任何build议在哪里寻找原因?
这不是很多的信息来诊断。 如果系统真正挂起 – 也就是说,在networking和本地控制台上变得没有响应 – 并且syslog或dmesg没有任何东西可以提供隐藏,那么我认为你遇到了硬件故障,并且会开始运行诊断工具您的硬件供应商。 坏RAM或CPU肯定会导致这种types的行为。
问题是内存故障。 冉memtest86并发现失败。 对DIMM进行RMA并获得新的DIMM。 其中一些还有内存故障。 RMA这些,现在一切都稳定。
如果您正在运行窗口pipe理器(gnome或kde),我已经看到了机器硬locking的问题。
问题是gnome屏幕保护程序导致某种问题,机器会完全locking并停止响应任何连接。 禁用屏保后,locking停止。
看看xorg日志和gdm日志(如果你使用的是gnome)。
另外,请检查/ var / logs中所有日志文件的时间戳,并查看在locking时是否正在写入任何日志。
你看过cron吗? 一个进程可以自动运行并导致locking?
不一定,syslog有能力asynchronous写入日志消息。 也看看sar输出来找出挂起的是什么。 这可能是I / O等待,机器可能是networking绑定,内存绑定或CPU绑定。
Sar教程
你可能只需要彻底清理你的主板。 这同样的事情发生在我身上。 完全冻结; 完全挂起,没有任何日志,没有响应鼠标或键盘,只是一个冻结的屏幕和一个挂CPU,完全没有反应。 日志什么也没有显示。
我做了一个完整的清洁,包括取出主板,断开连接。 非常,非常小心的清洁。 取下连接在内部风扇上的CPU散热器,意味着我必须使用我在当地的无线电小屋购买的导热银浆5重新将散热器表面放置在CPU的顶部。
我还用纯酒精(91%)从CPU和散热片上清除旧的散热膏。
我已经下载了英特尔和北极银的指示。
它必须非常非常干净,有非常具体的指示。
把所有的东西放在一起,按照我下载的指示,运行良好。
把我从扔掉个人电脑中救出来,觉得有些东西实际上是错的,只是脏兮兮的,尘土飞扬。 在风扇罩下面,主板上真的是一团糟。 这一定是造成了一些短路,因为灰尘和污垢/垃圾是导电的。