我有一个新的HP ProLiant DL360 G7系统,这是一个难以复制的问题。 在POST过程中 ,服务器随机挂在“ 正在进行电源和热量校准… ”屏幕上。 这通常是从安装的操作系统进行热启动/重启之后进行的。
系统在这一点上无限期地停顿。 通过ILO 3电源控制器进行复位或冷启动,可以使系统正常启动而不会发生事故。
当系统处于这种状态时,ILO 3接口完全可用,并且所有系统健康指示器都很好(全部是绿色的)。 服务器位于气候控制的数据中心,电源连接至PDU。 环境温度为64°F / 17°C。 在部署之前,系统被放置在24小时的组件testing循环中,没有失败。
此服务器的主要操作系统是VMWare ESXi 5.我们最初尝试5.0和更高版本5.1版本。 两者都通过PXE启动和kickstart进行部署。 另外,我们正在testingbaremetal Windows和Red Hat Linux安装。
HP ProLiant系统具有一组全面的BIOS选项。 除了静态高性能configuration文件外,我们还尝试了默认设置。 我已经禁用了启动启animation面 ,只是在上面的屏幕截图上得到一个闪烁的光标。 我们也尝试了一些VMWare 对BIOSconfiguration的“最佳实践” 。 我们已经看到惠普的一个build议似乎概述了类似的问题 ,但没有解决我们的具体问题。
怀疑硬件问题,我让供应商发送相同的系统为当天交货。 新的服务器是一个完全相同的版本,除了磁盘。 我们将磁盘从旧服务器移动到新的。 我们在replace硬件上遇到了同样的随机引导问题。
我现在有两台服务器并行运行。 这个问题随机打在暖靴上。 冷靴似乎没有问题。 我正在研究一些更深奥的BIOS设置,如禁用Turbo Boost或完全禁用功率校准function。 我可以尝试这些,但他们不应该是必要的。
有什么想法吗?
– 编辑 –
系统详情:
所有固件均为最新的HP Service Pack for ProLiant DVD版本。
打电话给惠普和拖网interwebz,我已经看到提到一个糟糕的ILO 3交互,但这也发生在物理控制台上的服务器。 惠普还build议使用电源,但这是在一个数据中心机架中,成功地为其他生产系统供电。
有没有可能是低电压DIMM和750W电源之间的不良互动? 该服务器应该是受支持的configuration。
所以,在把第三个系统join混合之后,遇到同样的问题,我们开始质疑环境。 我find了一份“ HP ProLiant服务器故障排除指南” ,find了下面显示的POST问题stream程图。
仔细地运行图表中的步骤,我们意识到,所有服务器中的一个常数是连接到数据中心碰撞车的KVM切换器。 这是一款消费级USB接口的KVM。 根据stream程图中突出显示的节点, 您是否已经知道了良好的KVM? ,我无法确定地回答。
所以,我们把服务器从KVM切换器上拔下来,然后运行一个自动启动, sleep 300; reboot
在rc.local
sleep 300; reboot
序列。 无论正常的DIMM,低电压DIMM,PSU功率等,服务器都没有问题。
这是与USB KVM切换器交互不良的结果。 由于这是控制台,它确保我们看到失败,如果我们正在寻找它。 自我实现的…