我处于一个包含许多配备了Adaptec和LSI MegaRAID硬件RAID控制器的Supermicro服务器的环境中。 这些控制器包含电池支持的caching模块,以帮助提高写入性能并保护数据传输。
频繁的支持问题是RAID控制器电池故障。 这将数组从回 写模式转换为直 写模式。 当系统以降低的写入速度运行时,显然会有负面的性能影响。 这种情况一直存在,直到可以build立停机时间窗口来closures系统并更换电池。
对我们来说,这是一个非常常规的操作。 几乎每周都有几千台物理服务器…我们甚至有充电站准备更换电池,以便在没有充电周期的情况下进行更换。
也许我被HP ProLiant服务器和智能arraysRAID控制器宠坏了很久,但惠普系统的电池寿命通常为4 – 6年。 他们最终在2009年左右淘汰了使用RAID电池。它们被replace为超级电容支持的内存模块(闪存支持的写caching或FBWC),不需要更换,处理或长时间的初始充电周期。
由于我看到Adaptec和LSI控制器的电池故障有时会发生在服务时间不到 12个月的系统上,所以我想知道这在其他环境中是否常见。
如果这是常见的,其他大型服务器环境如何处理?
大规模集成电路产品文献概述了一种新一代电池,可以在一年内维持更长的使用寿命。
HP ProLiant DL585 G2服务器,拥有超过1000天的正常运行时间和开心的RAID电池…
# uptime 05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99 # hpacucli Cache Board Present: True Cache Status: OK Accelerator Ratio: 50% Read / 50% Write Total Cache Size: 512 MB Battery Pack Count: 1 Battery Status: OK
我怀疑你的Supermicros是坏了的 – 可能是电池组过热。 最新的LSI将通过MegaCLI报告温度 – 您可能需要在需要更换的服务器上监测此值。
root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL BBU status for Adapter: 0 BatteryType: BBU [...] Temperature: 41 C
我见过戴尔和富士通的两款LSI BBU控制器系统,他们都没有每年更换电池组(除了通过深度放电拧紧电池组)。 典型的生活时间已经有3到5年的时间了。
平均电池寿命应该是3 – 5年。 不要忘记,基于闪存的FBWC也会失败。 我不知道为什么/如何,但是我们正在惠普服务器上定期更换它们。 我应该比电池寿命更长,但我没有从我们的个人服务器统计。
防止电池和电池学习失败的标准方法是使用多个电池。 这就是惠普存储(如惠普EVA)如何拥有它。 你有2个热插拔电池,而一个是低电量或正在更换,控制器与剩余的一个。 我不知道是否有可能有多个电池连接到SmartArray,但hpacucli
diag
输出build议它应该支持:
Battery 1 firmware is up to date. Battery 2 not present. Battery 3 not present. Battery Status: Battery 1 Battery 2 Battery 3 --------------- --------- --------- --------- Present: YES NO NO Responding: YES N/AN/A PIC Revision: 52 . . Status: 0x80 . . Extra Status: 0x01 . . Enabled: FALSE . . Charging: FALSE . . Good: TRUE . . Open: FALSE . . Shorted: FALSE . . Sample Err: FALSE . . Control: 0x00 . . Load Current: (0x70) 24.6mA . . Per Memory Chip: 4920uA . . Voltage: (0xae) 5640mV . . Capacity: 100% . . Depletion count: 0x00 . .
我在IBM平台上几百次安装的经验是,平均电池几乎不会超过2年,超级电容并没有好转,其中一些可以通过更新固件来修复,但是LSI只是没有得到它对。 前两年我有超过75%的超级帽失败。