Linux冻结 – 如何找出硬件或软件的原因？

几个星期前，我的linux服务器（kubuntu 10.04）开始给我带来麻烦。

它会在一定的正常运行时间之后冻结，看起来在几分钟和几个小时之间 – GUI没有响应，对鼠标或键盘没有反应（甚至不是REISUB ），在ssh会话中top停止更新，会话本身在超时：

 Read from remote host 10.1.1.9: Operation timed out Connection to 10.1.1.9 closed.

那时候，我假设了一个硬件问题，所以我开始replace越来越多的硬件 – 显卡，主板，CPU，内存，硬盘，psu。现在我已经更换了整个机器，它仍然冻结。

我已经检查了/var/log/messages和其他一些日志 – 根本就没有任何线索。硬件问题似乎不太可能，因为它已经全部被replace，但仍然有可能。

我已经把机器剥离到了最低限度。我从USB棒启动一个kubuntu直播系统，安装一些硬盘驱动器，只读并启动diff文件夹。这似乎有点可靠地产生冻结。到目前为止，我还没有超过几个小时的正常运行时间。

我的服务器closures了，这已经持续了几个星期了。我在我的智慧的结尾，我抓着秸秆。

我如何可靠地确定这是硬件还是软件问题？你将如何处理这样的问题？

既然你已经replace了这么多的硬件，我想你已经确定你的问题不是温度问题。

如果你尝试一些完全不同的发行版而不是Kubuntu 10.04呢？下载一些其他的实时分发，例如openSUSE，甚至一些BSD的味道，看看他们是否重现冻结。这样你可以肯定这不是Kubuntu 10.04中的某种错误。

你在目录树下有多less数据你是差异？更重要的是，只有几个大文件或大量的小文件？

当您更换硬盘驱动器时，如何将旧驱动器中的数据复制到另一个硬盘上？ dd_rescue还是一些影像程序？只是普通的旧cp ？如果您使用某种成像程序或dd_rescue，并且原始文件系统以某种方式包含一些奇怪的腐败，也许差异点击损坏的区域并导致崩溃？罕见，不太可能，但肯定有可能。就像闪电击中你一样。

你需要得到一个崩溃转储，并通过它看看。查看日志将无济于事，因为在发生内核恐慌/ oops时，它们不会写入任何内容。如果你有控制台访问，你可能会看到是否有恐慌消息。崩溃转储将具有内核环形缓冲区的内容（如果将其写入磁盘，则在dmesg中看到的内容）。如果这不能帮助您需要开始对转储进行全面分析

https://wiki.ubuntu.com/Kernel/CrashdumpRecipe?action=show&redirect=KernelTeam%2FCrashdumpRecipe

似乎是Ubuntu的开始。谷歌search“红帽崩溃白皮书”也会给你一些指示。

关于温度build议，尝试运行一些传感器监控软件，看看它在冻结的瞬间显示。

对于KDE（当您使用Kubuntu时： http : //kde-look.org/content/show.php/Sensors-Monitor