Dell PowerEdge服务器(R210II和R620)何时会因过热而自动关机?

我有一段时间试图找出戴尔PowerEdge服务器(在我的情况下,我们有一堆R210II和R620与iDRAC)处理过热的时间和方式。 我不想等待CPU自行保存,理想情况下,服务器本身应该在一段时间内处理高温,方法是在达到临界阈值之前向OS发出自我IPMI命令以closures电源。 例如在55C,向操作系统发出IPMI命令,如果服务器达到80C,拔出插头等。

问题是,戴尔的所有文档都不清楚服务器何时或如何从过热关机。

我的问题是,戴尔是否支持像这样的散热pipe理的正常关机,或者是在临界温度下的一些精美的打印或不清楚的文档,它将简单地拉它自己的插头? 戴尔OpenManage是否需要支持?

我真的希望避免必须运行一个专门的pipe理服务器插入到各种networking(试图避免通过一个pipe理点在networking之间桥接)远程pipe理这样的closures。 这将是一个单一的失败点,也受到与我的服务器本身相同的硬编码或不灵活的热条件。

我的R620在其中有iDRAC。 我将它们包含在iDRAC的远程pipe理function中,但是现在我对iDRAC无法处理这个问题感到失望。 它的散热设置仅限于控制风扇速度和可怕的文档,并在系统帮助实际上并没有说什么时候可能发生关机。

任何真实世界的build议,非常感谢! 谢谢。

我能find的最好的来自Spiceworks论坛上的一个主题 。 戴尔代表的回应是:

有很多方法可以做到这一点。 您是正确的,默认情况下,没有启用正常closures的选项,但是如果满足临界阈值,则服务器将closures。

您可以在iDRAC / CMC中设置警报操作。 您可以将其设置为在达到温度警告或临界阈值时closures电源。 您还可以在OMSA中设置平台事件或警报操作。 OMSA中还有一个部分正在closures散热。 您可以将其设置为在那里执行操作。 另外,如果事件被触发,您可以configurationOMSA执行程序。 您可以使用该function在Windows中执行关机程序。

警报操作中的“关机”选项是正常关机。 我build议您将其设置为在警告阈值上closures。 如果将其configuration为临界阈值,则可能会尝试进行正常关机,然后达到关键限制并执行硬关机,然后才能完成正常关机。

我还阅读了关于OpenManage 的官方戴尔PDF文档 ,其中提到了热关机:

Dell OpenManage Server Administrator(OMSA)使pipe理员可以设置服务器应执行紧急热关机的温度阈值。

所以答案似乎是肯定的,戴尔服务器确实支持正常的热关机,并且温度是可configuration的。 您可以在每台服务器上使用OpenManage Server Administrator进行这些更改(我相信您可以在服务器运行时进行这些更改)。 您不需要安装集中的OpenManagepipe理服务器,但它可以简化许多其他pipe理任务。

:编辑:
我应该附加说明这些答案对于戴尔服务器是通用的。 我没有find任何特定于您列出的服务器型号的东西。

感谢Thomas挖掘OpenManage文档参考。 OMSA需要安装在某处,然后远程或本地用于连接到BMC,最终设置IPMI PEF。 我发现戴尔制作了一个基本上包含了OMSA用来完成这个工作的所有工具的部署工具包。

戴尔OpenManage开发套件可以在这里:

http://www.dell.com/support/drivers/us/en/19/DriverDetails/Product/poweredge-r720?driverId=65JXF&osCode=RH60&fileId=3196318431&languageCode=EN&categoryId=SM

Linux的版本(似乎只有64位,曾经是一个32位版本,但我找不到它)包括一个可启动镜像用于安装固件等,但也得到一个控制台提示与所有部署工具可访问。 下载,刻录,插入服务器并启动。 在提示符下,您可以访问“syscfg”命令。

文档可以在这里find,但你想要的是参考指南!

http://www.dell.com/support/Manuals/us/en/19/Product/dell-opnmang-dplymnt-toolkit-v4.2

使用syscfg命令,可以设置PEF以在发出常规IPMI警报时让BMC触发操作。 目前的使用情况如下所示:

syscfg pcp --filter=tempfail --filteraction=powerdown 

现在,当IPMI通常会报告临时失败警报时,BMC将发出断电事件。 操作系统应通过APIC通知事件,并尝试正常关机。 除此之外,内置的热阈值将做他们的事情。

如果你熟悉ipmitool,你也可以检查(也可能用PEF设置PEF,但是我没有试过)你设置的新的PEF,像这样:

 ipmitool <options> pef list 

如果你grep的“温度”,你会看到这样的事情:(不能从控制台C&P)

 11 | active | 0x11 | Temperature | Any | Critical | Threshold | (0x01/0x0204),<LC,<UC | Alert,Power-off | 1 

关机是新增的PEF动作。

我还没有想出使用戴尔工具设置温度阈值的正确用法,但是我使用的是ipmitool!

 ipmitool <options> sensor list | grep Ambient Ambient Temp | 24.000 | degrees C | ok | na | na | 3.000 | 8.000 | 42.000 | 47.000 | na 

然后,您可以根据ipmitool传感器阈值参数的使用情况来设置新的阈值。 这里是一个例子,我把上限临界值改为48C:

 ipmitool <options> sensor thresh "Ambient Temp" ucr 48.000 

您可以尝试手动发出上限临界温度事件,但似乎只发出事件并且不受PEFfilter操作设置的约束。 (发布事件1比手动识别传感器更容易等)

 ipmitool <options> event 1 

我所做的是将关机温度设置为25℃,并在同事closures的情况下,与同事closures服务器机房空调5分钟。 目标服务器在25Cclosures。