我们有几台DELL 1950服务器。 其中一台服务器有CentOS6.3,它随机重启,所以我怀疑是硬件(没有生成日志)。 其他四台服务器不会随机重新启动。
我们在五台服务器上运行memtest86 +,其中三台memtest86 +崩溃(显示一个奇怪的彩色屏幕,如果video卡失败)。
我testing了一个老的memtest86(不是+),没有一个服务器崩溃。 我也testing了其他的RAMtesting工具,没有工具失败。
你们有没有人经历过这个?
如果memtest崩溃,你的内存很可能是坏的。 尝试从非崩溃的服务器中replace内存并重新运行memtest。 记忆很可能是罪魁祸首。 你也可以减less一半的内存(系统允许;最小内存要求),并尝试运行memtest。 一旦通过,尝试更换另一半的记忆,看看。
我有一台正在重启的Linux服务器,这通常意味着它是一个硬件问题。 检查Dell OMSA(Dell Open Manager系统pipe理员托pipe节点)中的日志。 或通过DRAC(戴尔远程访问卡)。
联系戴尔技术支持部门以协助您解决问题。
UBCD是另一个极其有用的帮助检测和诊断的工具。 它包括memtest和memtest +。 新版本甚至有GPU的内存testing仪。 如果您怀疑video有问题,这也会派上用场。