在雷击之后评估设备损坏 – 我是否应该计划更多?

我的一个客户的网站上周遭受了直接的雷击(巧合的是在13号星期五! )。

我偏远的地方,但与现场工作的人,我发现了一个奇怪的损害模式。 这两个互联网链接都停止了,大多数服务器都无法访问。 大多数损坏发生在中密度纤维板上 ,但是一个光纤连接的IDF也损失了交换机堆叠成员中90%的端口。 足够的备用交换机端口可用于重新分配其他地方的电缆并进行重新编程,但是当我们追查受影响的设备时出现停机。

这是一个新的build筑/仓储设施,服务器机房的devise有很多计划。 主服务器机房由APC SmartUPS RT 8000VA双转换在线式UPS运行,由发电机支持。 所有连接的设备都有适当的配电。 非现场数据复制和系统备份已到位。

总而言之,我所知道的伤害是:

  • Cisco 4507R-E机箱交换机上的48端口线卡故障。
  • 思科2960交换机以4个成员堆栈失败。 (哎呀…松散的堆叠电缆)
  • Cisco 2960交换机上的几个片状端口。
  • HP ProLiant DL360 G7主板和电源。
  • Elfiq WAN链接平衡器。
  • 一个Multitech传真调制解调器。
  • WiMax /固定无线互联网天线和动力注射器。
  • 众多的PoE连接设备(VoIP电话,Cisco Aironet接入点,IP安全摄像头)

大部分问题与Cisco 4507R-E中的整个交换机刀片丢失有关。 这包含了一些VMware NFSnetworking和上网点的防火墙。 VMWare主机发生故障,但是一旦恢复了存储networking连接,HA将负责维护虚拟机。 我被迫重启/重新启动一些设备来清除时髦的电源状态。 所以恢复的时间很短,但我很好奇应该学习什么课程…

  • 未来应该采取哪些额外的保护措施来保护设备?
  • 我应该如何处理保修和更换? 思科和惠普正在更换合同项下的产品。 昂贵的Elfiq广域网链路平衡器在他们的网站上有一个简单的说“太糟糕了,使用networking电涌保护器 ”。 (好像他们期望这种types的失败)
  • 我以前曾经遇到过IT风暴,但影响非常有限, 例如廉价的PCnetworking接口或者微型交换机的销毁。
  • 还有什么我可以做的,以检测潜在的片状设备,或者我只是需要等待奇怪的行为表面?
  • 难道这只是运气不好,还是应该在灾难恢复中真正考虑的东西?

有了足够的$$$,就有可能在环境中build立各种冗余,但预防性/周到devise和有效利用资源的合理平衡是什么?

几个工作之前,我工作的地方的一个数据中心是一个非常大的天线下的一个楼层。 这个大而薄的金属物品是该地区最高的物品,每18个月左右就遭到雷击。 数据中心本身是build立在1980年左右,所以我不会把它称为最现代的事情,但他们有很长的经验处理雷击损坏(串行通讯板必须每次更换,这是一个审判,如果通讯板子在10年内没有任何新零件的系统)。

有一件事是由老手提出来的,那就是所有这个虚假的潮stream都可以find解决办法,一旦桥接就可以在一个共同的地面上传播,并且可以从空隙中穿过。 闪电是一个例外情况,正常的安全标准不足以防止电弧,并将尽可能远地发挥能量。 它有很多。 如果有足够的能量,它可以从悬吊天花板栅格(可能有一根吊线悬挂在与水泥中的build筑梁相连的环路上)延伸到2柱机架的顶部,并从那里进入networking的好东西。

就像黑客一样,你只能做很多事情。 你的供电所有的断路器都可以钳位寄生电压,但是你的低电压networking设备几乎从来不会这样做,并且代表着一条极其充满活力的电streampath的共同path。


检测潜在的片状试剂盒是我知道如何在理论上做的事情,但不是现实。 可能你最好的办法是把可疑的齿轮放入一个区域,并故意将房间内的温度boost到操作范围的高端,看看会发生什么。 运行一些testing,加载它。 离开它几天。 任何预先存在的电气损害所增加的热应力可能会排除一些定时炸弹。

它确实缩短了您的一些设备的使用寿命,但是找出哪些设备很难。 电源内部的功率调节电路可能会损坏组件,并将脏电源传送到服务器,这些只能通过使用专门devise用于testing电源的设备来检测。


在屋顶上有一个巨大的避雷针的设施内有一个直stream电,除了我已经考虑过雷击之外 。 一般来说,罢工是那些很less发生的事情之一,在“上帝的行动”下洗牌,然后移动。

但是…你现在有一个。 它显示你的设施至less有一次合适的条件。 现在该评估一下你的设施是否有适当的条件和相应的计划。 如果您现在只想到雷电灾害的影响,我认为这是适当的。

自从最近把它编辑回头版首页以来,我一直在想这个问题。

我自由地规定,对于像系统pipe理员那样需要处理对DC屋顶的大型雷击具有高度吸引力的设施的人来说,对于大罢工的具体应急计划是有意义的。 但是对于我们大多数人来说,这是一次性的情况,我认为更适合于我们其他人的答案可能会有一些价值。

有可能想象各种电影情节的威胁 ; 如果确实发生了这样的情况,毫无疑问的是,如果他们这样做了,那么他们的业务运作就无可避免了,但是没有理由认为有可能发生这种情况。 你知道那种事情; 飞机罢工/闪电/ 油库附近爆炸 /任何其他似是而非背景风险的情况。

其中每一项都有一个具体的缓解计划,但我会build议 – 以我的上述规定为模板 – 这样做没有商业意义 。 正如Schneier在上述竞争中试图指出的那样,只是因为你可以想象发生了一些可怕的事情并不能成为对具体计划有价值甚至是可取的威胁。 做好业务意义的是一个通用的,有据可查的,经过testing的业务连续性计划。

您应该问自己,在不同的时间段(例如,24小时,96小时,一周,一个月),完成现场损失的商业成本是多less,并试图量化每次发生的可能性。 它必须是一个诚实的商业成本分析,由各级业务买入。 我曾经在一个被普遍接受的宕机时间为550万英镑/小时的地方工作(那是20年前,当时有500万美元是很多钱)。 这个数字大体上是一致的,使得这么多的决定变得容易得多 ,因为它们只是简单的math问题。

您的预算是预计的损失乘以该损失的年度机会。 现在看看你能做些什么来减轻预算的威胁。

在某些情况下,这将运行到一个完整的备用数据中心,冷藏设备,准备去24×7。 这可能意味着一个小的备用数据中心,以便客户互动可以继续减less数量的电话操作员和占位符网站警告中断。 这可能意味着在您的主站点上的第二个冗余路由的互联网连接,直到需要时才会冷却。 正如马克·亨德森(Mark Henderson)指出的那样,这可能意味着保险(但涵盖商业损失的保险以及恢复的实际成本); 如果你可以把你的BC预算用在一张纸上,这张纸可以在发生灾难的时候覆盖你所有的预期成本,那么购买这张纸是有意义的,但是别忘了把承销商的失败归因于你的业务风险计划。 这可能意味着将某些核心设备的维护合同升级为极其昂贵的四小时固定设备。 只有你能知道什么对你的生意有意义。

一旦你有了这个计划, 你真的需要testing它 (除了基于保险的计划外)。 我曾在一个有完整的小规模冷藏场地的地方工作,准备切换到距离我们主要设施45分钟车程的地方。 当我们遇到一个closures核心networking的问题时,我们最终试图修复它,而不是切换到寒冷的地方, 然后修复核心和削减。 背后失败的原因之一是我们不知道裁员和裁员需要多长时间。 因此,在决定裁员之前,没有人真的知道应该允许多长时间才能运行,所以 – 可以理解的是 – 决定裁员是没有道理的。 14个小时后,我们回到网上后, 不是因为停电本身 ,而是因为在设施上花了很多钱来减轻在这种停电期间没有使用的一天停电。

作为最后一点,请注意,业务计划的外包组件无法保证正常工作。 您的高级pipe理人员可能会坐在那里,想着“ 如果我们把服务器放在云中,他们就会一直呆在那里,我们可以解雇系统pipe理员 ”。 不是这样。 云可以像其他任何事一样失败 ; 如果您已经将关键组件外包给提供商,那么您所做的全部就是移除了估算这些组件发生故障的可能性。 SLA都非常好,但是除非它们受到大量的不执行处罚的支持,否则它们毫无意义 – 为什么您的提供商会花费额外的钱来保留可用的服务,只要他们能够将钱花光并退还您的服务费不可用? 为了保证可靠性,您的SLA需要处理与您的业务中断相关的成本。 是的,这会大大增加外包成本; 是的,这是完全可以预料的。

总是归结为你想花多less钱。 我没有足够的知识来详细说明这一点,但是我曾经在一家大型制药公司数据中心进行了雷击,并且通过了一个本应该是多余的尖峰避雷器的东西(并且devise正确,但实施错误,所以通过了。)

UPS可能阻止的最大峰值是什么? 它应该有一个评级。 显然,罢工是足够的直接超过,或者东西周围泄漏UPS饲料,就像一个糟糕的地面。 所以,也许你会回顾一下你的电源devise,确定另一次罢工的可能性,把停机时间X的可能性与修复的成本进行比较,也许有一个电工给这个设备一个很好的调查,以确保一切都正确地接地 – 还有一些快速阅读节目安全/代码的接地不如防止雷击造成的接地。