固件最佳实践和更新计划

固件更新时很less受到关注。 看不见的,在脑海中。

许多设备:RAID控制器,网卡,芯片组,甚至硬盘驱动器,从更新中获得一些好处。 更好的function,安全/错误修复等

大多数SA都会说,“每当它断裂时,更新固件”。 但是这可能会导致困难。 有几次,当联系戴尔关于一个失败的硬盘驱动器,我被问到我的硬盘驱动器固件是否是最新的。 我所有的服务器都使用某种types的RAIDconfiguration。 如果我已经有一个驱动器故障,我是否应该考虑尝试升级其余驱动器或RAID控制器上的固件? 我会说不。 但戴尔似乎有不同的看法。

  • 什么是系统固件的实际更新时间表?
  • 你有什么最佳做法来分享?

(我知道戴尔有一个称为“ 服务器更新实用程序”的很好的实用程序 ,可以检查任何戴尔服务器上的所有新固件。

    我在两个关键实例中更新固件。

    1. 升级服务器时。
      • 当我刚拿到服务器时,我会检查惠普网站上的最新“固件更新光盘”的date。 如果它足够新,那么在将其投入生产之前,我将先运行它。
      • 当我重新使用一台服务器。 通常情况下,这台服务器是2-5岁,可能在整个时间内没有固件更新。 由于我正在重新格式化,我将更新服务器上的所有固件。
    2. 当有供应商确定需要这样做。
      • 有时会遇到重大的稳定性问题,例如在错误的故障后无法重buildRAID5arrays,或者NIC上的TCP卸载引擎出现性能问题。
      • 有时候在寻求支持时,技术支持人员会要求我更新固件。 那么我会这样做的。

    还有第三个例子,我没有在上面列出,因为它还没有发生:

    • 将更新的组件放入较旧的服务器时。 有时系统BIOS将需要更新来处理它。

    我们使用HP SIM(系统的Insight Manager)推出固件,我们通过平台 – 首先testing,然后开发,然后整合,然后参考然后最终生产 – 通常每个平台大约一周左右完成 – 所以我们有一个5/6一周发布到生产窗口。 似乎工作,但我们永远不会做的一件事是推出固件与其他更新,如驱动程序/代码等同时 – 节省了大量的指责。

    我可能会在这里反对粮食,但如果没有破碎,不要修复它。 如果这不是一个安全问题,那么我把它放在一边。

    我从来没有因为这个原因拒绝戴尔的服务。

    也许你可以每月安排一次实用程序,然后用其他重新启动来更新它们?

    您应该在对待补丁时对待固件更新 ,尽pipe这些更新通常很难部署,所以您可能需要查看发行说明以帮助确定是否值得付出努力(但是,您可能也会这样做,以获得补丁)。 固件更新同样可能包含一个新的讨厌的bug,因为他们正在修复一个bug。

    在debugging(或重新debugging硬件)时应该更新固件,因为这很容易。

    部署应该大致遵循这些方面:

    1. 在实验室机器上testing
    2. 部署到不重要的系统
    3. 等待
    4. 部署到重要/生产系统

    再一次,有些事情不能遵循这个。 尤其是,将Microsoft补丁快速推送到Windows桌面非常重要,如果没有大量资源,testing很难快速完成。

    在debugging任何新的基础设施设备时,我通常会更新固件。 工作站和打印机只有在出现特定的问题(如所需的错误修复或安全问题)时才会更新。 这对于服务器来说并不重要,因为大部分的固件代码不是在启动过程之外执行的,就是很简单,几乎没有出错的地方。

    我在升级服务器上的RAID固件方面遇到了不好的经验,因为许多制造商不保证当前的RAIDconfiguration在固件更改的情况下可行,与arrays中的单个磁盘相同。

    我的倾向是大部分应用“如果没有破坏,不解决”的政策。 这是值得检查是否有可能从一个不好的firemware升级(即惠普服务器中的冗余ROM,或者如果你有一个EEPROM闪存,并愿意使用它的可移动芯片)恢复。

    我不能在戴尔上发言,但是很多年前IBM存储集团里的人告诉我说,他们的RAID固件的第一级从来就不是最好的。 他们首先稳定射击,然后用未来的转速水平来提升performance。 不幸的是,除非有问题,否则我们中很less有人会认为(或者可能有这种情况)后来又回到了健康系统的RAID固件中。 因此,我们的策略是在每次build立新服务器时升级RAID固件级别,假设RAID适配器不是品牌spankin的新型号。 这样我们至less可以获得当时最好的性能水平。 如果它是一个新的模式适配器,我们试图记住几个月后回来检查更新,但我们对此没有信心。

    在主板上,除非供应商技术支持告诉我们,否则我们不要惹他们。 我们多年来的经验是,除非有具体问题需要解决,否则风险远大于难以衡量的效益。

    // SPK

    我用SUU和惠普和IBM的同类产品成功。 我遇到过的唯一问题是,当使用供应商驱动程序replace戴尔驱动程序时,没有任何技术原因导致SUU升级无法在Dell服务器上进行OM升级。 我们每年至less两次在几百台服务器上运行固件和驱动程序的更新,以保持最新状态。 我们从来没有遇到RAID固件的问题。

    我们每获得一次机会都会更新固件,遗憾的是每年可能会有3-4次(主要维护时间)。

    如果您阅读戴尔固件升级随附的简报,您会发现它将更新分类为关键,重要或其他任何内容,并介绍升级修复的方式(并不总是如人们所希望的那样清晰)。

    我的观点是,如果没有很好的理由,我不会申请固件升级。 如果这是一个关键的更新,并解决了一个问题,我有一个合理的机会,然后是的,即使这是一个压力大的业务,我会应用它。

    正如你所说,戴尔的支持通常坚持应用任何相关的升级之前,他们会支持你,显然在这种情况下,你没有太多的select。 您可以理解戴尔不希望浪费工程师时间,即使我从来不知道固件是支持电话的原因。

    JR

    我认为这取决于你必须处理的环境types。 如果您在需要高可用性的环境中工作,并且无法在需要时重新启动服务器。 我认为最好的做法是实施维护计划。 为每个系统select一个时间范围,通知用户并在指定的时间范围内执行所有必要的工作,包括固件更新。 通过这种方式,您可以确定所有的系统都是最新的,同时最大限度地减less对生产的影响。 而且,正如前面的评论中指出的那样,当您构build新的服务器时,有必要检查固件更新。