我很好奇是否有一些性能计数器会logging所需的ECC纠错次数,这可能会被视为内存故障的早期指示器。 我想在理论上可以像从tlb的页面错误报告给操作系统一样访问它。
Windows或FreeBSD和Linux的解决scheme是受欢迎的。
大多数硬件本身处理这个日志logging。 例如,HP的iLO基板pipe理控制器将ECC内存错误活动喷到其集成pipe理日志中。
因此,通用问题的一般答案是:检查硬件pipe理系统的function和资源。
对于Linux:
安装mcelog,它会将所有错误logging到/var/log/mcelog.log中
你也可以看一下Linux的sysfs,查看EDAC文档的相关信息: https : //www.kernel.org/doc/Documentation/edac.txt
或者阅读这个页面,它谈到了使用Linux的内核EDAC来查询内存控制器,并提供了一些示例脚本: http : //www.admin-magazine.com/Articles/Monitoring-Memory-Errors
more / sys / devices / system / edac / mc / mc0 / ue_count