几个星期前,我的linux服务器(kubuntu 10.04)开始给我带来麻烦。
它会在一定的正常运行时间之后冻结,看起来在几分钟和几个小时之间 – GUI没有响应,对鼠标或键盘没有反应(甚至不是REISUB ),在ssh会话中top停止更新,会话本身在超时:
Read from remote host 10.1.1.9: Operation timed out Connection to 10.1.1.9 closed.
那时候,我假设了一个硬件问题,所以我开始replace越来越多的硬件 – 显卡,主板,CPU,内存,硬盘,psu。 现在我已经更换了整个机器,它仍然冻结。
我已经检查了/var/log/messages和其他一些日志 – 根本就没有任何线索。 硬件问题似乎不太可能,因为它已经全部被replace,但仍然有可能。
我已经把机器剥离到了最低限度。 我从USB棒启动一个kubuntu直播系统,安装一些硬盘驱动器,只读并启动diff文件夹。 这似乎有点可靠地产生冻结。 到目前为止,我还没有超过几个小时的正常运行时间。
我的服务器closures了,这已经持续了几个星期了。 我在我的智慧的结尾,我抓着秸秆。
我如何可靠地确定这是硬件还是软件问题? 你将如何处理这样的问题?
既然你已经replace了这么多的硬件,我想你已经确定你的问题不是温度问题。
如果你尝试一些完全不同的发行版而不是Kubuntu 10.04呢? 下载一些其他的实时分发,例如openSUSE,甚至一些BSD的味道,看看他们是否重现冻结。 这样你可以肯定这不是Kubuntu 10.04中的某种错误。
你在目录树下有多less数据你是差异? 更重要的是,只有几个大文件或大量的小文件?
当您更换硬盘驱动器时,如何将旧驱动器中的数据复制到另一个硬盘上? dd_rescue还是一些影像程序? 只是普通的旧cp ? 如果您使用某种成像程序或dd_rescue,并且原始文件系统以某种方式包含一些奇怪的腐败,也许差异点击损坏的区域并导致崩溃? 罕见,不太可能,但肯定有可能。 就像闪电击中你一样。
你需要得到一个崩溃转储,并通过它看看。 查看日志将无济于事,因为在发生内核恐慌/ oops时,它们不会写入任何内容。 如果你有控制台访问,你可能会看到是否有恐慌消息。 崩溃转储将具有内核环形缓冲区的内容(如果将其写入磁盘,则在dmesg中看到的内容)。 如果这不能帮助您需要开始对转储进行全面分析
https://wiki.ubuntu.com/Kernel/CrashdumpRecipe?action=show&redirect=KernelTeam%2FCrashdumpRecipe
似乎是Ubuntu的开始。 谷歌search“红帽崩溃白皮书”也会给你一些指示。
关于温度build议,尝试运行一些传感器监控软件,看看它在冻结的瞬间显示。
对于KDE(当您使用Kubuntu时: http : //kde-look.org/content/show.php/Sensors-Monitor