是否需要为服务器级硬件烧入RAM?

考虑到很多服务器级系统都配备了ECC RAM , 在部署DIMM之前烧录 DIMM是必要还是有用的?

我遇到了一个所有的服务器RAM通过冗长的老化/压力testing过程放置的环境。 这有时会延迟系统部署,并影响硬件交付周期。

服务器硬件主要是Supermicro ,所以RAM来自各种厂商; 不是直接来自制造商,如戴尔Poweredge或HP ProLiant 。

这是一个有用的练习? 在我以前的经验中,我简单地使用了开箱即用的供应商RAM。 POST内存testing不应该捕获DOA内存吗? 在DIMM实际上出现故障之前,我已经对ECC错误做出了响应,因为ECC阈值通常是保修位置的触发器。

  • 你烧你的 RAM吗?
  • 如果是这样,您使用什么方法来执行testing?
  • 是否在部署之前发现了任何问题?
  • 老化过程是否导致了任何额外的平台稳定性与不执行该步骤?
  • RAM 添加到现有运行的服务器时,您会做什么?

我发现金士顿的一份文件详细说明了它们如何与服务器内存配合使用,我相信这个过程通常对于大多数已知的制造商来说是相同的。 存储器芯片以及所有半导体器件遵循被称为“浴缸曲线”的特定可靠性/故障模式:

在这里输入图像描述

时间表示在横轴上,从工厂出货开始并持续三个不同的时间段:

  • 早期失败:大多数故障发生在早期使用期间。 然而,随着时间的推移,失败的数量迅速减less。 以黄色显示的早期失败期大约为3个月。

  • 有用的生活:在此期间,失败是非常罕见的。 使用期限以蓝色显示,估计为20年以上。

  • 报废失败:最终,半导体产品磨损并失败。 生命周期结束时间显示为绿色

现在,因为金士顿指出,头三个月会出现高失败率(在这三个月之后,这个单位被认为是好的,直到15 – 20年之后才是EOL)。 他们使用一台名为KT2400的设备进行testing,在高电压下,在100摄氏度的条件下对服务器内存模块进行24小时的严酷testing,每个DRAM芯片的所有单元都连续运行; 这种高水平的压力testing会使模块老化至less三个月(正如在大多数模块出现故障的关键时期之前所指出的那样)。

结果是:

2004年3月,金士顿开始了为期六个月的试用,其中100%的服务器内存在KT2400上进行了testing。 密切监测结果以衡量失败的变化。 2004年9月,所有的testing数据经过汇编和分析后,结果显示失败率降低了90%。 这些结果超出了预期,对于已经在同类产品中处于领先地位的产品线来说,这是一个重大的改进。

那么为什么在内存中刻录对于服务器内存不是有用的? 简单地说,因为它已经由你的制造商完成了!

没有。

硬件燃烧的目标是强调它到催化组件故障的地步。

这样做与机械硬盘驱动器会得到一些结果,但它只是不会做很多内存。 这个组件的本质就是,环境因素和年龄更可能成为失败的原因,而不是读写RAM(即使在最大带宽下几个小时或几天)也是如此。

假设你的RAM质量足够高,第一次使用时就不会熔化,烧入过程不会帮助你发现缺陷。

我们购买刀片服务器,而且我们通常一次购买相当大的一部分刀片服务器,因此,我们将这些刀片服务器安装在DAYS上,然后再安装好networking端口。 所以我们使用这个时间来使用memtest大概24小时,如果超过周末,有时会更长一些 – 一旦我们完成了基本的ESXi的喷洒,并且IP已经准备好在主机configuration文件被应用,一旦networking启动。 所以我们testing它,更多的机会而不是必要的,但之前它已经抓住了一些DOA DIMM,这不是我身体上做的,所以我不费吹灰之力。 我是为了它。

那么我想这取决于你的过程是什么。 我总是在内存中运行MemTest86之前,我把它放在一个系统(服务器或其他)。 系统启动运行后,内存故障导致的问题难以解决。

至于实际上“压力testing”的记忆; 我甚至还没有明白为什么这样做是有用的,除非你正在testing超频的目的。

我不知道,但是我见过有人做。 我从来没有看到他们从中获得任何东西,但我认为这可能是宿醉或迷信。

就我个人而言,我就像你一样,ECC错误率对我更有用 – 假设RAM不是DOA,但是无论如何你都知道。

对于在memtest86 +上运行30分钟的非ECC内存很有用,因为在系统运行时通常没有可靠的方法来检测位错误。
蓝色筛选不被认为是可靠的方法…
而且稍微片状的RAM往往不会立即显示,只有当系统已经看到一些全内存的负载,然后只有当该RAM中的数据是已经使用,然后崩溃的代码。 数据腐败可能会被忽视很长一段时间。

对于ECC内存,它不会做任何内存控制器本身不会这样做,所以它没有任何意义。 这只是浪费时间。

以我的经验来看,坚持燃烧的人通常是老年人,他们总是这样做,而且一直在做习惯,而没有真正想到事情的真相。
或者他们是年轻人遵循那些老人写的规定的程序。

这取决于。

如果你正在部署5万个新的RAM,并且你知道这个特殊的硬件在运行不到一天之后的失败率为0.01%,统计上来说,其中有几个在第一天就会失败。 燃烧是为了抓住这一点。 随着这种规模的部署,预计会失败,而不是一个特殊的情况。

如果你只部署几百个项目,统计数据很可能在你身边,因为你必须相当不幸地得到一个失败的部分。