我最近build立了一个运行Solr的小群集。 该集群由12个运行E3-1270V2和32GB RAM的Supermicro刀片组成。
其中11个服务器运行良好。 其中一个不断在我身上崩溃。 当服务器崩溃时,通常在terminal上产生一些输出。 第一次是:
双重故障:0000 [#1]
嗯…这相当神秘。 从那以后,我重新创build了这个问题,并得到了一些更有趣的消息。

这是另一个同样神秘的信息

另一个有趣的问题是,我可以启动sysbench,并在CPU崩溃的情况下最大化CPU,但是直到我启动Java才能可靠地崩溃。
我试过closures以下CPUfunction:
这只是一个糟糕的CPU?
非常感谢!
我曾在HP ProLiant服务器上使用过Nehalem和Westmere CPU。 在我的情况下,服务器将正确地开机自检,并识别所有的RAM,但会产生机器检查exception绑定到一个特定的插槽后,加载应用程序。
如果您尚未安装,请尝试将问题隔离到特定的DIMM或DIMM插槽,以查看是否随模块移动。 如果错误仍然存在,并被绑定到一个特定的插槽…我build议检查CPU插槽。 检查CPU的主板插槽,并注意弯曲的针脚。
这是超微齿轮,所以我不知道保修条款。 但希望这只是RAM,因为这比系统板更容易替代。