在我用于计算的Ubuntu服务器上,我最近观察到一些CPU扩展程序(GUROBI,CPLEX)经常出现段错误。
与相应程序的技术支持相对应,我被build议可能是硬件问题。
服务器的pipe理员执行了一个详细的memtest,事实certificate,RAM模块似乎没有问题。
因此,我用mprime工具来testingCPU,在压力testing的执行过程中,下面两行出现多次:
[工人#10月18日18:47]致命错误:舍入是0.498046875,预计不到0.4 [工人#10月18日18:47]检测到硬件故障,请参阅stress.txt文件。
stress.txt文件本身并不是很详细,可能是这个错误的原因,所以我想问一下这里是否有人碰巧知道这个问题的原因是什么? 有没有其他的testing可以进一步解决问题?
在整个压力testing(+ 69.0°C(高= + 80.0°C,暴击= + 98.0°C))期间,系统(以及所有核心)的温度都很好,所讨论的CPU是Intel Core i7-2600K CPU @ 3.40GHz并没有超频或以任何方式修改。
另外有趣的是,如果我运行mprime只强调CPU所有testing通过罚款。 只有当我让mprime强调CPU + RAM时才会触发错误。
mprime不给误报,所以你可以认为你有一个硬件问题。 您想要将已知好的部件一次一个地交换组件,然后运行相同的testing。 我会先从内存(尽pipememtest通过),然后电源,然后CPU,然后主板。
如果您没有备用系统或访问兼容的部件,您可以尝试几件事情,但您可能找不到明确的原因。 首先,检查所有的风扇是否自由旋转。 其次,检查电源的温度,以及主板上的VRM和PCH。 如果您的服务器没有探测器,请将自己接地,然后用手指触摸它们。 他们可能会很热,但不是太热,以至于不能把手指放在他们身上。 第三,取下第一个插槽以外的所有RAM模块(如主板上标示的),如果testing仍然失败,请将其中一个移除。 如果两个或两个以上失败,则可以安全地假定它不是RAM。