在声明它之前,我应该多长时间/多less努力testingCPU和内存?

我们的一台戴尔PowerEdge液晶显示屏显示“CPU 2机器检查错误”,但是在有关MCE或“硬件错误”的日志中找不到任何内容。 我清除了这个消息,但是我想通过一些沉重的东西来运行这个机器,看看我能否再次陷入困境。

我用了一个无限循环的bash脚本,执行64次(每个核心执行一次)几分钟。 然后我用一个叫做“压力”的程序来做和CPU和内存一样的事情。 我的问题是,在说“好的,这台机器是好的”之前,还有什么足够的数量呢? 几分钟? 一小时? 只要CPU临时工保持良好?

如果服务器在保修期内,请让供应商更换部件。

如果服务器不在保修范围内,且部件不能更换,则最终答案将是主观的。

这是一个不能失败的服务器(即:运行生命支持,处理实时金融交易)? 还是这只是一个小狗粉丝网站的Web服务器?

无论哪种方式,只要运行服务器通过任何'烧入'过程中你有新的硬件。


我会补充一句如果你来到这里希望find某个人签署关于把这个服务器放在作品中的风险,我们的答案都不应该被解释为我们认为把服务器留在生产中是可以接受的。 是您必须通过公司内部的风险评估stream程发送的内容。 没有人可以给出一个明确的“运行memtest和X天没有错误素,你保证一个稳定的服务器”…

对于内存:使用memtest86至less几个小时。 你花的时间越多越好。 根据我的经验,一切低于3小时都是不可靠的。 我想说,让它至less运行12至24小时,以确定。

为了testingCPU,你可以运行primenumber运算程序, mprime或其他压力testing,比如编译大量代码来validation计算是正确的。 这些越长越好。

这些正常运行还是不能保证。 如果其中一个testing失败,你至less有办法重现。

另一方面,机器检查错误看起来像你真的应该向供应商报告,即使你不能复制它。 即使进行testing,您的机器也可以运行数周甚至数月,但在最不幸的时刻将再次崩溃。