有一天,我们注意到服务器机房里出现了一阵可怕的燃烧味道。 长话短说,它最终成为UPS单元中的电池模块之一,但花了好几个小时才弄清楚了。 我们能够弄清楚的主要原因是UPS显示器最终显示模块需要更换。
问题就在这里:整个房间充满了气味。 进行嗅探testing是非常困难的,因为气味渗透了所有的东西(更不用说让我们头脑清醒了)。 我们几乎错误地把我们的生产数据库服务器,因为它是最强烈的气味。 生命体验似乎没有问题(CPU温度显示60摄氏度,风扇速度确定),但我们不确定。 恰巧发生烧毁的电池模块与机架上的服务器高度相同,只有3英尺远。 如果这是一个真正的紧急情况,我们将失败。
实际上,真正的服务器硬件被烧毁的可能性是相当less见的,大部分时间我们都会把UPS看作是罪魁祸首。 但是有了几个设备的机架,它可以很快成为一个猜谜游戏。 如何快速准确地确定哪些设备实际上正在燃烧? 我意识到这个问题是高度依赖于环境variables,如房间大小,通风,位置等,但任何input将不胜感激。
普遍的共识似乎是对你的问题的回答分两部分:
你已经掌握了“如何”了:
您可以通过多种方式快速提高发现问题的机会 – 改进的监控通常是最容易的。 有些问题要问:
这是一个更有趣的问题。
打开大红色开关可能会让您的公司花费巨额资金:干净的代理程序版本可能会达到数万美元,紧急关机后的停机/恢复成本(EPO,“下降房间” )可能是毁灭性的。
您不想丢掉一个数据中心,因为电源中的电容器popup,使房间变得异味。
相反,服务器机房中的火灾可能会使公司的数据/设备,更重要的是员工的生命。
排除“有趣的燃烧味道”绝对不应该优先于安全 ,所以重要的是要有一些明确的规则来解决“火灾前”的情况。
接下来的准则是我个人的限制 ,我没有(或除了)任何其他明确定义的程序/规则之后申请 – 他们为我提供了很好的服务,他们可以帮助你,但是他们也可能很容易让我死亡或明天就解雇了,所以应用他们风险自负。
如果您看见烟或火,请将房间放下
这应该不言而喻,但无论如何我们要说:如果有一个活跃的火灾(或表示将很快出现烟雾),请撤离房间,切断电源,并排放灭火系统。
例外可能存在(行使一些常识),但这几乎总是正确的行动。
如果您正在进行故障排除,则至less要有一个其他人参与
这是有两个原因的。 首先,你不想在数据中心四处游荡,突然有一个架子上去,你走下来,没有人知道你在那里。 其次,另外一个人是你对于解决问题与放弃房间的完整性检查,如果你打电话来打大红色的开关,你就有第二个人同意这个决定的好处(有助于避免职业生涯的限制)如果有人在后面提出质疑的话,这样的决定)。
在排除故障时采取谨慎的安全措施
确保你总是有一个逃生path(一个开放的行结束和清晰的path出口)。
让驻守在EPO /灭火释放的人员。
随身携带灭火器(请使用哈龙或其他清洁剂)。
记住上面的规则#1。
如有疑问, 请离开房间 。 注意呼吸:使用呼吸器或氧气面罩。 如果发生化学火灾,这可能会保护您的健康。
设置一个限制并坚持下去
更准确地说,设置两个限制:
您设定的限制也可以用来让您的团队开始有序closures受影响的区域,所以当您拉动电源时,您不会崩溃一堆活动的机器,而您的恢复时间会更短,但请记住如果顺序关机时间过长,则可能不得不让一些系统以安全名义崩溃。
相信你的直觉
如果您随时关心安全问题,请closures故障排除并清空房间。
你可以或不可以根据直觉去房间,但在(相对)安全房间外重新组合是审慎的。
如果没有迫在眉睫的危险,您可以在采取EPO或清洁剂释放之类的任何激烈行动之前,select带入当地的消防部门。 (无论如何他们可能会告诉你这样做:他们的任务是保护人,然后是财产,但他们显然是处理火灾的专家,所以你应该做他们所说的话!)
我们已经在评论中解决了这个问题,但是也可以总结为一个答案 – @DeerHunter,@Chris,@Sirex和其他许多人对讨论做出了贡献
热成像摄像机可以完成这项工作,并可以确定过热的位置。 像这样的设备可以让你识别一个充满烟雾的房间的起火或燃烧。
你没有做过这些事情 。 你离开危险的环境,因为无论是通过整个房间泵送是危害你的健康,可能真的搞砸你的肺。 如果在房间里有一种难闻的东西在燃烧,你可以拨打电话(911 | 112 | 999 |任何紧急电话号码适合您的司法pipe辖区),并让他们(公司)重新装瓶空气。
电脑零件包含各种有趣的化学物质,包括汞 , 镉 , 铅 ,以及大量塑料的shell。 请注意,我所做的所有链接都解释了低级别的暴露会导致持久的伤害,甚至是快速的死亡。 这是一个可以立即危及生命和健康的环境 。
…真的,如果有什么东西在燃烧的话,不要花上几个小时的时间来闻闻烟雾。 如果你不能识别它,并立即采取行动遏制它,走出去。
如果您对UPS进行了适当的监控(通常通过SNMP),则设备本身应该已经在监控系统上运行了。 如果没有,请向供应商咨询。 它发生故障或您的监控系统configuration不正确。
如果某些活动实际上是在燃烧,那么应该以某种方式抱怨,或者只是离开networking,这也会引起警报。
如果它像是一根真正的电源线,通过绝缘层燃烧,而不是一个聪明的PDU,那么我们回到你原来的问题,那就是“我怎么发现一个燃烧的东西? 我认为正确的答案是“打EPO并找出答案,你的生产服务器可能不足以冒生命危险”。
这是其中的一种情况
不适用,你应该打电话给专业人士
其他任何事情都是愚蠢的。
作为一个以前的职业是电子科技的人,我有经验的“燃烧的气味”不是火灾。 这并不罕见。
我不会closures一个数据中心的气味。 烟是另一回事,有些东西真的在燃烧(通常情况下,但是豌豆大小的钽电容器也可以使房间充满烟雾)。 在电源中有多less油炸成分,这真是太神奇了。
一个TIC或IR温度计(一个有用的工具和比TIC便宜很多)不一定会显示出来,因为该组件不会产生太多的热量,而是在一个箱子内。 但检查设备不工作,使用你的监测工具。 对于这样的气味,95%的时间将成为影响整个设备性能的电源。
我喜欢红外线成像或温度计的答案,但也许还有什么帮助是一个真正的“气味探测器”。 毕竟是什么引起了你的警惕是气味。 烟,热,IR等都是替代品。
像这样的一个: 。 我个人从来没有使用过它们,甚至没有看到它们在数据中心中使用过。 但至less在理论上它应该是一个整洁的工具。 如果你有钱花在这个小发明上。
它给你一个气味强度以及分类。 所以应该可以引入气味。 魔鬼的细节当然。 它是多么的敏感,掩盖虚假的背景气味等
纯粹的基于温度的测量的一个优点是经常在更远的点或阈值处发生气味。 或者,如果过热元件被隐藏的布线等隐藏起来,比视线热点更容易检测到逃逸的分子。
另一种情况是与非热相关的气味。 之前我们有一个冷却回路泄漏,冷却剂的气味也是奇特的。 我甚至不会进入现在古老的导pipe死亡的情况。 🙂
我很惊讶这些传感器是多么的敏感。 可以在亚ppm级别检测到H2S /硫醇等(通常的元凶)。