在RAID控制器上检测到“单比特ECC错误”是什么意思？

我有戴尔T7600与Perc H710P RAID控制器和4个附加的3TB驱动器。在过去几个月中，RAID控制器在引导时间间歇性地报告错误：“找不到引导设备”，“在baseport处的适配器没有响应”，磁盘经常报告为缺失或失败。

我已经取代了RAID控制器，4个硬盘，最后是系统的主板。

更换主板并重新启动几次后，我得到了错误

Single bit ECC errors were detected on the RAID controller. Please contact technical support to resolve this issue.

重新启动约20次后，我还没有看到ECC错误。系统看起来不错，除了磁盘风扇有时会在系统处于完全空闲状态时开始全面爆炸，而且不会停止，直到我重新启动。

RAID控制器上的内存中的ECC错误是否存在？或者，RAID控制器是否映射到系统内存中，ECC错误是否真的在系统内存中？或者，驻留在RAID控制器中的1GB高速caching中的ECC错误？

该错误对应于控制器上的caching模块。此时，您可能需要更换RAM或实际的PERC控制器。这应该是标准的保修工作。

RAID控制器消息“检测到的单个位错误”仅仅是信息性的。这不是一个硬件错误，也不是一个正确的警告联系制造商要求修复。大多数公开可用的内存（RAM）确实随机出现错误（不包括军事硬件）。在这个不可接受的计算环境中，提供了一个解决scheme：ECC。我相信这是检测单个位错误的最便宜和最简单的解决scheme，并将其还原。所以一个严重的错误是一个多位错误消息发生。这可能需要其他技术，如“ChipKill”（所以硬件板可以禁用一个不应该被信任的芯片）。检测到单个位错误消息通常会触发对内部硬件计数器/registry的更新。只是保留一些统计数据。但是，他们不是错误的certificate硬件replace。这就是ECC为什么build立的原因。

单比特错误的数量可能会有所不同。我已经对这个课题感兴趣了16年。而且我意识到数量呈指数增长。该值仅与另一个参数相关：系统运行的时间（开机时间）。值得一提的两个阈值是18个月（指数曲线上升）和36个月（两位错误开始出现）。其他参数已被分析，但没有任何关联：品牌，型号，“便宜/昂贵的产品”，热量，读/写操作。关键只是时间（“开机时间”）。这也可能表明使用适用于计算硬件的“计划淘汰”策略。所以资本主义制度可能需要每三年更新一次计算硬件，或者最多六年（维护预算加上）。

您还提到其他我认为与ECC问题没有直接关系的错误（您的问题）。