HP ProLiant DL360 G7挂在“电源和热量校准”屏幕上

我有一个新的HP ProLiant DL360 G7系统,这是一个难以复制的问题。 在POST过程中 ,服务器随机挂在“ 正在进行电源和热量校准… ”屏幕上。 这通常是从安装的操作系统进行热启动/重启之后进行的。

在这里输入图像描述

系统在这一点上无限期地停顿。 通过ILO 3电源控制器进行复位或冷启动,可以使系统正常启动而不会发生事故。

当系统处于这种状态时,ILO 3接口完全可用,并且所有系统健康指示器都很好(全部是绿色的)。 服务器位于气候控制的数据中心,电源连接至PDU。 环境温度为64°F / 17°C。 在部署之前,系统被放置在24小时的组件testing循环中,没有失败。

此服务器的主要操作系统是VMWare ESXi 5.我们最初尝试5.0和更高版本5.1版本。 两者都通过PXE启动和kickstart进行部署。 另外,我们正在testingbaremetal Windows和Red Hat Linux安装。

HP ProLiant系统具有一组全面的BIOS选项。 除了静态高性能configuration文件外,我们还尝试了默认设置。 我已经禁用了启动启animation面 ,只是在上面的屏幕截图上得到一个闪烁的光标。 我们也尝试了一些VMWare 对BIOSconfiguration的“最佳实践” 。 我们已经看到惠普的一个build议似乎概述了类似的问题 ,但没有解决我们的具体问题。

怀疑硬件问题,我让供应商发送相同的系统为当天交货。 新的服务器是一个完全相同的版本,除了磁盘。 我们将磁盘从旧服务器移动到新的。 我们在replace硬件上遇到了同样的随机引导问题。

我现在有两台服务器并行运行。 这个问题随机打在暖靴上。 冷靴似乎没有问题。 我正在研究一些更深奥的BIOS设置,如禁用Turbo Boost或完全禁用功率校准function。 我可以尝试这些,但他们不应该是必要的。

有什么想法吗?

– 编辑 –

系统详情:

  • DL360 G7 – 2个X5670六核CPU
  • 96GB内存(12 x 8GB低电压DIMM)
  • 2个146GB 15k SAS硬盘
  • 2个750W冗余电源

所有固件均为最新的HP Service Pack for ProLiant DVD版本。

打电话给惠普和拖网interwebz,我已经看到提到一个糟糕的ILO 3交互,但这也发生在物理控制台上的服务器。 惠普还build议使用电源,但这是在一个数据中心机架中,成功地为其他生产系统供电。

有没有可能是低电压DIMM和750W电源之间的不良互动? 该服务器应该是受支持的configuration。

所以,在把第三个系统join混合之后,遇到同样的问题,我们开始质疑环境。 我find了一份“ HP ProLiant服务器故障排除指南” ,find了下面显示的POST问题stream程图。

在这里输入图像描述

仔细地运行图表中的步骤,我们意识到,所有服务器中的一个常数是连接到数据中心碰撞车的KVM切换器。 这是一款消费级USB接口的KVM。 根据stream程图中突出显示的节点, 您是否已经知道了良好的KVM? ,我无法确定地回答。

所以,我们把服务器从KVM切换器上拔下来,然后运行一个自动启动, sleep 300; rebootrc.local sleep 300; reboot序列。 无论正常的DIMM,低电压DIMM,PSU功率等,服务器都没有问题。

这是与USB KVM切换器交互不良的结果。 由于这是控制台,它确保我们看到失败,如果我们正在寻找它。 自我实现的…