在这个问题上一个星期之后,我就把这个问题敲了出来,以此来伸出援助之手。
我们有大约100个使用带有J1900赛扬处理器的AAEON PICO-ITX BT01主板的相同系统。
每个系统都运行在Debian Jessie上,内核为3.16.0-0-686。 每个系统都以相同的方式使用相同的clonezilla映像进行映像。
我们正在经历一种间歇性的失败模式,其体现在三种方式之一(尽pipe我相信所有三种方式都是相同的根本原因)
1)在BIOS飞溅的最后,它冻结,不会恢复。 虽然它显示错误代码99,但是这个代码总是显示在内核启动之前的瞬间,所以我的感觉是这个BIOS代码不是诊断的(这只是屏幕上的最后一件事)。 禁用BIOS的飞溅显示没有用,只是BIOS版本和错误代码。
2)在内核启动的最初阶段,它报告CPU核心不能被唤醒。 系统然后挂起并且不恢复。
3)BIOS飞溅后立即屏幕输出停止,系统挂起,不恢复。
这不会发生在每个主板上,尽pipe它们都来自相同的生产运行并使用相同的硬件(之前我们已经交换了SSD并看到了相同的问题,所以我不相信这是SSD模块)。
在现场看到这个问题后,我开始了一个testing过程,在这个过程中系统会被成像,然后在启动60秒后重新启动crontask。 我们会以这种方式刻录系统,因为它们在失败后不能恢复,在24小时之后我们会看到哪些系统仍在重启,哪些未通过testing。
我在这里问,看看是否有人有任何其他的想法,基本上。 我一直在与电路板制造商保持联系,他们有两个受影响的系统,他们正在testing,但没有结果。 我可以在我这里的系统上运行任何必要的testing,包括已经通过的和失败的。
还有一件重要的事情。 硬重启(断电)总是允许系统启动。 在主板重新上电后的第一次软重启过程中,被识别为故障的系统将无法在多数情况下启动。 我只有在软重启过程中才看到这种故障模式。
这是相当神秘的,除此之外,我喜欢硬件,并希望继续购买它。
感谢球员和女孩。
发现这个故障的原因是与制造商合作,结果certificate是错误的BIOS版本。 我们都testing了回滚BIOS,问题消失了。
这应该是一个早期的诊断步骤,但生活和学习!