有关SEL错误代码的信息

免责声明:我正在运行一个老化的集群,我的信息非常有限 – 我是关于第十个研究生来处理日常维护的,我不是HPC,硬件或软件方面的专家。 我使用这个集群来运行我开发的代码,只在必要时排除问题。 文档主要限于集群专用集群pipe理系统(Scyld),我们不再保修,所以调用技术支持是最后的手段,因为我们会收取费用(学术界强烈build议不要这样做)。

问题:此群集的其中一个节点无法启动,在启动过程中出现以下错误:

Node1: Dram ECC requested but not enabled Node1: No DQS Receiver Enable pass window found Node1: DQS Rcvr En pass window too small (far right of dynamic range) DQS-DQ passing window too small Press F1 to Resume 

点击F1后,节点重新启动,并返回到此。 这让我觉得有一个内存(读取:硬件)的错误。 我打开了BIOS,所有的内存都显示出来了 – 但事件日志中有5个项目(贴在底部)。 我有一种感觉,这些代码可以指导我的错误 – 特别是如果我有一个DIMM死棒,或更糟糕的。

尝试修复:集群上的每个节点都包含2个四核AMD Opteron处理器2350,每个处理器都有自己的8个槽位存储体。 目前,每个银行在插槽1-4中安装了4根DIMM。 我尝试重新安装DIMM,颠倒DIMM的顺序,将DIMM插入插槽5-8,然后切换DIMM所在的插槽,以查看是否允许我隔离任何问题 – 无济于事。

我发现了一些关于SEL错误代码的信息(这里),这似乎有些希望 – 但代码不完全相同,因此我不能完全信任它们。

所需的解决scheme:找出这些SEL代码的含义,找出问题,并(希望)修复它,并引导节点。 即使缩小到DIMM,坏的CPU或其他任何东西都会有帮助。

谢谢!

其他可能有用或不可用的信息:该系统是一个有32个节点的企鹅群,每个节点都是相同的(详细描述见上)。 它运行CentOS 4.6。 这是一个用于高度并行计算模拟的beowulf集群,使用MPI将过程收集/分散到节点。

系统事件日志:

 SEL Entry Number [1] SEL Record ID: 0001 SEL Record Type: 02 (System Event) Event Timestamp: Sep 21, 2016 14:01:52 Generator ID: 0001 Event Message Format Ver: 04 (IPMI ver 1.5) Event Sensor Type: C1 Event Sensor Number: 81 Event Dir Type: 70 Event Data: A0 01 07 SEL Entry Number [2] SEL Record ID: 0002 SEL Record Type: 02 (System Event) Event Timestamp: Sep 21, 2016 14:02:03 Generator ID: 0001 Event Message Format Ver: 04 (IPMI ver 1.5) Event Sensor Type: 0F (POST Error) Event Sensor Number: 82 Event Dir Type: 70 Event Data: A0 08 41 SEL Entry Number [3] SEL Record ID: 0003 SEL Record Type: 02 (System Event) Event Timestamp: Sep 21, 2016 14:02:03 Generator ID: 0001 Event Message Format Ver: 04 (IPMI ver 1.5) Event Sensor Type: 0F (POST Error) Event Sensor Number: 82 Event Dir Type: 70 Event Data: A0 0B 41 SEL Entry Number [4] SEL Record ID: 0004 SEL Record Type: 02 (System Event) Event Timestamp: Sep 21, 2016 14:02:04 Generator ID: 0001 Event Message Format Ver: 04 (IPMI ver 1.5) Event Sensor Type: 0F (POST Error) Event Sensor Number: 82 Event Dir Type: 70 Event Data: A0 0D 41 SEL Entry Number [5] SEL Record ID: 0005 SEL Record Type: 02 (System Event) Event Timestamp: Sep 21, 2016 14:02:04 Generator ID: 0001 Event Message Format Ver: 04 (IPMI ver 1.5) Event Sensor Type: 0F (POST Error) Event Sensor Number: 82 Event Dir Type: 70 Event Data: A0 0F 41 memory event-log cluster