RHEL:内存开始失败时会发生什么?

我得到一些服务器RAM的ecc警告。 这是一个很老的机器,所以这些部件没有任何保证。

如果这是Windows,我会期望看到BSOD。

RH5.x可以期待什么?

在RHEL系统上,您会在内核环形缓冲区输出( dmesg )以及/var/log/messages看到错误的累积。 一旦超过ECC门限,应用程序可能只会崩溃。 服务器可以热启动。 你可能会有内核恐慌。 机器检查exception日志将有指示器。 我甚至看到了系统重新启动并禁用坏DIMM的情况。

如果这是企业服务器硬件,系统的事件日志可能会填满错误。 服务器的看门狗可能超时并强制系统冷启动。

在这一点上,你知道你有一个问题…所以正确的解决scheme是取代坏的DIMM。 在大多数情况下,失败模式并不美观,所以最好避免这种痛苦。 高兴的是,ECC的RAM给你警告。

Linux相当于BSOD是内核恐慌。 当内核发现它真的无法处理的情况(例如,文件系统损坏导致像试图释放一个已经释放的inode的情况)时,它通常通过系统日志将恐慌警告打印到任何地方,暂停处理器。

如果内存不能检测到,那么内核迟早会遇到这样的情况,而且恐慌。

我用Googlesearch了很多例子, http://www.google.co.uk/imgres?imgurl=https://www.virtualbox.org/raw-attachment/ticket/9305/rec.jpeg&imgrefurl=https://www.virtualbox.org /票据/ 9305&H = 908&W = 1229&SZ = 248&tbnid = JzS7Yn9aNlPUXM:&TBNH = 90&tbnw = 122&变焦= 1&USG = __ gtpppLj2_g4OvWr-d5QA8DlK7a0 =&的docID = IqDtDvjAV31hEM&SA = X&EI = zcDmUcORFsao0QXrzYGADA&VED = 0CEwQ9QEwBA&DUR = 1342#imgdii = JzS7Yn9aNlPUXM%3A%3BAjx9NoISgkV-XM%3BJzS7Yn9aNlPUXM%3A是stream派的一个很好的例子; 你可以看到内核正式宣布放弃的时间戳7.568856。

还要注意的是,它不是在同步文件系统,这是一个合理的预防措施,当它不能再确定自己的完整性。 这可能会使这些条件难以debugging,因为缺less同步意味着日志消息将永远不会将其写入本地日志文件中。 这又是我使用远程系统日志的主要原因之一:错误仍然会被发送到远程日志主机,并且经常可以在那里find。