ECC内存的重要性

ECC内存模块是否在非关键服务器上很重要?

我正在考虑让自己成为一个玩具专用的服务器,以处理大量随机的,非关键的东西。 零星的重新启动没有什么大不了的。 我正在寻找一个提供商,但价格疯狂地便宜。 他们的硬件听起来像是任何一个严肃的服务器机箱的玩笑:桌面处理器,非ECC内存,杂牌机箱,没有热插拔SATA硬盘等等(我想这个价格是合理的)。

我认为在任何“严重”的服务器上,ECC内存都是理所当然的,所以我想知道这对于“玩具”电器来说是不是一件大事。

    CERN IT人员( Data Integrity )发布的数据表明,来自RAM的错误数量相当低。 你仍然需要权衡你的数据和硬件成本。

    您可以在StorageMojo上阅读更多关于此的信息。

    ECC RAM基本上有助于防止从RAM读取和写入时发生的错误。 实际出现错误的几率非常小,但非零。 我会说,如果你没有在没有ECC RAM的情况下执行任务关键型的东西,就像我说的那样,遇到ECC将会阻止的错误的可能性真的很小。

    什么是非关键服务器? 一个可以失败?

    当内存可靠性是基础时,ECC RAM是基础。

    随着内存大小的增长,两件事情成长:

    • 软件对内存的依赖, 服务器软件(例如caching)
    • 内存错误的概率(p = num_bits * p_bit_failure)

    关于ECC的这个英特尔报告报道了这些事实

    • 具有24×7全天候运行的4GB内存的服务器的平均内存错误率是每年150次
    • 每个内存模块每年〜4000个可更正的错误
    • 超频和系统时代大大提高了故障率
    • 经常性的失败是常见的,并且很快发生(97%发生在第一次失败后的10天内)=>雪崩效应
    • 对于使用寿命为3至5年的ECC服务器,系统故障不可纠正的内存错误的机会小于0.001%

    WISC最近的另一项研究显示,ECC对于这些ZFS系统至关重要:

    ZFS对于内存损坏没有预防措施:坏的数据块返回给用户或写入磁盘,文件系统操作失败,很多时候整个系统崩溃。

    ZFS文件系统在服务器上越来越stream行; 它通过吃掉千兆字节的RAM来提供主要的性能和可靠性改进。

    如果可能的话,ECC可以使您免于遇到这些问题,并且在灾难性的情况下,在发生这种情况之前就会发出警告。

    这根本不是那么重要。 如果你需要99.999%的正常运行时间,你会担心的。 除此之外,你会更频繁地重新启动,比你会得到内存错误。