我们有一台服务器偶尔内核恐慌一段时间,现在我们认为有硬件问题。 您将如何解决您无法物理访问的硬件问题? 是否有任何工具可以在操作系统中使用来诊断系统的不同部分,从而找出导致所有这些恐慌的原因?
除了系统日志或供应商提供的testing工具(前面板显示器,Dell诊断程序等)中的任何内容外,大多数诊断程序都需要物理访问系统。
我的build议是将memtest86或memtest86 +运行在系统上:大多数恐慌/随机崩溃是由坏的RAM引起的,这通常会抓住它。
如果不能访问硬件,您将很难诊断硬件问题; 如果在原木中不明显,或者由烟雾和裂纹噪音随之而来的整齐闪耀的光芒,那么很多硬件故障排除归结为切换部分,直到问题消失。
与硬件的事情是,当你使用软件进行故障排除,它只能告诉你什么是问题,而不是什么可能是问题。 也就是说,memtest86发现一个确定的内存问题,你有一个确定的内存问题,但如果memtest86说没有内存问题,你实际上可能仍然有一个内存问题(我有系统testing罚款,但只是停止交换后崩溃该模块)。
这就像要求你的大脑来诊断自己。 你不能相信结论。 🙂