在RAID控制器上检测到“单比特ECC错误”是什么意思?

我有戴尔T7600与Perc H710P RAID控制器和4个附加的3TB驱动器。 在过去几个月中,RAID控制器在引导时间间歇性地报告错误:“找不到引导设备”,“在baseport处的适配器没有响应”,磁盘经常报告为缺失或失败。

我已经取代了RAID控制器,4个硬盘,最后是系统的主板。

更换主板并重新启动几次后,我得到了错误

Single bit ECC errors were detected on the RAID controller. Please contact technical support to resolve this issue. 

重新启动约20次后,我还没有看到ECC错误。 系统看起来不错,除了磁盘风扇有时会在系统处于完全空闲状态时开始全面爆炸,而且不会停止,直到我重新启动。

RAID控制器上的内存中的ECC错误是否存在? 或者,RAID控制器是否映射到系统内存中,ECC错误是否真的在系统内存中? 或者,驻留在RAID控制器中的1GB高速caching中的ECC错误?

该错误对应于控制器上的caching模块。 此时,您可能需要更换RAM或实际的PERC控制器。 这应该是标准的保修工作。

RAID控制器消息“检测到的单个位错误”仅仅是信息性的。 这不是一个硬件错误,也不是一个正确的警告联系制造商要求修复。 大多数公开可用的内存(RAM)确实随机出现错误(不包括军事硬件)。 在这个不可接受的计算环境中,提供了一个解决scheme:ECC。 我相信这是检测单个位错误的最便宜和最简单的解决scheme,并将其还原。 所以一个严重的错误是一个多位错误消息发生。 这可能需要其他技术,如“ChipKill”(所以硬件板可以禁用一个不应该被信任的芯片)。 检测到单个位错误消息通常会触发对内部硬件计数器/registry的更新。 只是保留一些统计数据。 但是,他们不是错误的certificate硬件replace。 这就是ECC为什么build立的原因。

单比特错误的数量可能会有所不同。 我已经对这个课题感兴趣了16年。 而且我意识到数量呈指数增长。 该值仅与另一个参数相关:系统运行的时间(开机时间)。 值得一提的两个阈值是18个月(指数曲线上升)和36个月(两位错误开始出现)。 其他参数已被分析,但没有任何关联:品牌,型号,“便宜/昂贵的产品”,热量,读/写操作。 关键只是时间(“开机时间”)。 这也可能表明使用适用于计算硬件的“计划淘汰”策略。 所以资本主义制度可能需要每三年更新一次计算硬件,或者最多六年(维护预算加上)。

您还提到其他我认为与ECC问题没有直接关系的错误(您的问题)。