刀片服务器机箱故障的可能性

在我的组织中,我们正考虑购买刀片服务器 – 而不是机架式服务器。 当然,技术厂商也让它们听起来很不错。 我经常在不同的论坛上读到的一个问题是,服务器机箱有理论上的可能性下降 – 这将导致所有的刀片服务器停机。 这是由于共享基础设施。

我对这个可能性的反应将是有冗余,并由两个底盘,而不是一个(当然非常昂贵)。

有些人(包括HP供应商)试图说服我们,由于冗余(冗余电源等),机箱非常不可能发生故障。

我的另一个担忧是,如果出现问题,可能需要备件 – 这在我们的位置(埃塞俄比亚)是很困难的。

所以我会问有经验的pipe理员,他们pipe理着刀片服务器:你有什么经验? 他们是否整体下降 – 什么是合理的共享基础设施,可能会失败?

这个问题可以扩展到共享存储。 我再说一遍,我们需要两个存储单元,而不是只有一个存储单元,供应商们又说,这个东西如此稳定,以至于不会出现任何故障。

那么 – 我简直不敢相信,这样一个关键的基础设施可以是非常可靠的,没有冗余 – 但也许你可以告诉我,你是否有成功的基于刀片的项目,其核心部分没有冗余(机箱,存储… )

目前,我们看看惠普,因为IBM看起来太贵了。

    发生完全机箱故障的概率很低。

    在维持刀片式服务器机箱的完全故障之前,您的设备中可能会遇到问题。

    我的经验主要是使用HP C7000和HP C3000刀片机箱。 我也pipe理戴尔和Supermicro刀片解决scheme。 供应商很重要。 但是总的来说,惠普的产品一直很出色,戴尔一直很好,而超微则缺乏质量,弹性和devise不佳。 我从来没有经历过惠普和戴尔方面的失败。 Supermicro确实有严重的中断,迫使我们放弃这个平台。 在惠普和戴尔,我从来没有遇到全面的机箱故障。

    • 我有过热事件。 在同一地点设施空调失败,温度达到115°F / 46°C 10小时。
    • 电源浪涌和线路故障:丢失A / B馈电的一侧。 个别电源故障。 我的刀片设置通常有六个电源,所以有足够的警告和冗余。
    • 单个刀片服务器故障。 一台服务器的问题不会影响机箱中的其他服务器。
    • 机内火灾

    我已经看到了各种各样的环境,并且具有在理想的数据中心条件下以及一些较粗糙的位置安装的好处。 在HP C7000和C3000方面,要考虑的主要问题是机箱是完全模块化的。 这些组件被devise为最大限度地减less了影响整个单元的部件故障的影响。

    像这样想想…主要的C7000机箱由前面(被动)中背板和背板组件组成。 结构shell只需将前后部件固定在一起,并支撑系统的重量。 几乎每一个部分都可以被replace…相信我,我已经拆卸了很多。 主要的冗余是风扇/冷却,电力和networkingpipe理。 pipe理处理器( HP的Onboard Administrator )可以进行冗余配对,但服务器可以在没有configuration的情况下运行。

    在这里输入图像描述

    完整的shell – 前视图。 底部的六个电源运行在机箱的整个深度,并连接到机箱背面的模块化电源底板组件。 电源模式是可configuration的,例如3 + 3或n + 1。 所以shell肯定有电源冗余。 在这里输入图像描述

    完整的shell – 后视图。 后面的Virtual Connectnetworking模块具有内部交叉连接,所以我可以丢失一面或另一面,仍然保持与服务器的networking连接。 有六个热插拔电源和十个热插拔风扇。 在这里输入图像描述

    空壳体 – 前视图。 请注意,这部分机箱没有任何东西。 所有的连接都通过模块化中间板。 在这里输入图像描述

    中板组件被移除。 请注意底部中平面组件的六个电源馈线。 在这里输入图像描述

    中板组件。 这是魔术发生的地方。 请注意16个独立的下行链路连接:每个刀片服务器都有一个连接。 我有个别的服务器插槽/托架失败,没有杀死整个机箱或影响其他服务器。 在这里输入图像描述

    电源背板。 低于标准单相模块的3Ω单位。 我改变了数据中心的配电,只是更换电源底板来处理新的供电方式 在这里输入图像描述

    机箱连接器损坏。 这个特殊的shell在组装过程中掉落了,从一个色带连接器上断开了这个针脚。 这几天未被注意到,导致正在运行的刀片机箱捕获FIRE … 在这里输入图像描述

    这是中平面带状电缆的烧焦残留物。 这控制了一些机箱温度和环境监控。 刀片服务器内部继续运行,没有发生事故。 在预定的停工期间,我的闲暇时间更换了受影响的部件,一切正常。 在这里输入图像描述

    我已经pipe理less量的刀片式服务器已经有八年了,而且我还没有发生导致刀片式服务器脱机的系统故障。 由于与电力有关的问题,我已经真正接近了,但还没有出现一个不属于外部来源的机箱故障。

    你的观察发现,底盘确实代表单点失败是正确的,尽pipe这些日子里他们的确裁减了大量的裁员。 我所使用的所有刀片系统都具有并行的刀片供电function,多个networking插孔通过不同的path,而在光纤通道从刀片到机架后端光纤端口的多条path中。 即使是底盘信息系统也有多条path。

    通过适当的networking工程(冗余NIC使用,用于存储的MPIO)单一问题事件是完全可生存的。 在我使用这些系统的时候,我遇到了以下问题,其中没有一个影响到多个刀片(如果有的话)

    • 刀架上有两个电源故障。 另外4个中有足够的冗余来支持负载。
    • 松开三相电源的相位。 目前这些供应很less,但其他两个阶段有足够的能力来支持负载。
    • 失去一个机箱间pipe理循环。 多年前,另一个电话厂商的技术人员就注意到了这一点。
    • 完全丢失机箱间pipe理环路。 我们失去了pipe理控制台的访问权限,但是服务器一直在运行,就像没有任何错误。
    • 有人意外地重新启动了机架后面的networking底板。 该机箱中的所有东西都使用冗余网卡,因此不会中断服务; 所有的stream量都移到了另一个底板上。

    TomTom关于成本的观点是非常正确的。 要获得完全的成本平价,刀片机箱将不得不完全加载,并且可能不使用机架后面的交换机等特殊的东西。 刀片架在您确实需要密度的地方是有意义的,因为您的空间有限

    这个问题可以扩展到共享存储。 我再说一次,我们需要两个存储单元,而不是只有一个存储单元,供应商们又说,这个东西如此稳定,以至于不会出现任何故障。

    其实没有。 你所关心的事情是有道理的,这句话把它们写成“读你眼前的东西”。 具有完全复制的HA是存储单元的已知企业function。 要点是SAN(存储单元比刀片机箱要复杂得多,最后只是“笨蛋金属”)除了一些背板之外,刀片机箱中的所有部件都是可更换的 – 所有模块等都是可更换的,而单个刀片都是可以更换的允许失败。没有人说刀片中心本身给刀片高可用性。

    这与SAN应该有100%的时间有很大的不同 – 一致的状态 – 所以你有像复制等东西

    说:看你的号码。 我已经考虑购买刀片一段时间了,他们从来没有金融意识。 与普通电脑相比,机箱太贵了,刀片也不便宜。 我build议看看SuperMicro Twin架构作为替代。

    我曾经使用过的刀片服务器是来自IBM的刀片服务器。 这些特殊的模块是完全模块化的,并且内置了很多的冗余。所以,如果有什么事情会失败的话,它将成为像PSU或模块化交换机那样的组件之一。

    自从参与IBM刀片服务器之前,我还没有看到彻底的失败。

    与其他品牌,我怀疑他们将以类似的方式build造。
    与供应商交谈也是一个好主意,并做大量的阅读。
    这是一个很大的投资。

    导致同一机箱中多个刀片服务器中断的故障可能(可能性和原因)与导致同一机架中多个服务器中断的故障相当(可能性和原因)。

    初始设置是为了最大程度地减less单点故障(两个独立的交stream电源,每个交stream电源都可以处理整个负载,运行以隔离直stream电源,使得任何一个电源可以处理整个负载;两个单独的networking连接,它可以处理整个预期的负载等),而取出机箱中所有刀片或机架中所有2U服务器的东西之间的差异非常小。

    我经常在不同的论坛上读到的一个问题是,服务器机箱有理论上的可能性下降 – 这将导致所有的刀片服务器停机。 这是由于共享基础设施。

    确实! 大约5年前,在pipe理两个HP Proliant p-Class刀片机箱的同时,我几次遇到机箱问题。

    如果刀片服务器被closures(服务器经常不closures,但对于我们来说却成了一个非常实际的问题),刀片服务器无法启动。 我有服务器突然closures,不能再次打开。 最后,我把所有的服务器都关掉了,不能再来。

    我记得,几乎所有的问题都是由于背板不好或控制器背板造成的。 我们把这些replace了很多次,而我从技术人员那里得到的非特定的,非正式的消息是,他们在这一代刀片机箱中遇到了问题。

    那时我决定,如果在将来的采购中有什么要说的话,刀片服务器的好处根本不值得冒这个风险。

    快进到我的下一个雇主,以及我目前的雇主。 他们已经安装了HP Proliant c-Class机箱,所以我对于刀片的温暖感觉并不重要。 在我处理c系列机箱的5年中,我从来没有遇到过像p-Class那样的整个机箱在我身上失败的事情。 他们一直在运行没有重大问题。

    (除了一场暴雨从屋顶下雨,4层,计算机房密封处有一个小孔,下了一根电缆,进入机箱)

    DELL和HP刀片机箱都没有冗余的中间平面。 这是IBM Bladecenter被certificate是赢家的地方。 据我所知,它是唯一提供冗余中间平面的刀片机箱。 尽pipe惠普为刀片提供了一套出色的pipe理软件套件,但为了避免整个机箱出现单点故障,我们为我们公司购买了Bladecenter E.