HP服务器的自动硬件testing?

作为configuration服务器的一部分,我们运行HP的Insight Diagnostics来testing硬件。 这是一个手动过程。 有没有办法自动运行Insight Diagnostics?

hpdiags软件的选项是“-rd:”运行所有可诊断设备的诊断。 从我的testing中,这并没有太大的作用(它只是从磁盘读取SMART信息)。 有没有人有更好的运气?

硬件:采用HP ProLiant BL460c刀片DL360的BladeCenter c7000。

操作系统:ESXi和Ubuntu。

所以,我会提出另一个问题:

为什么在configuration之前需要在服务器上运行HP Insight硬件诊断?

在我上面的评论中,我表示,在大型HP ProLiant环境中这样做抢先没有什么收获。 我应该澄清一下我的想法

按照频率递减的顺序,我们来看看您通常遇到的问题types:

  • 存储arrays和磁盘 :RAID控制器将向操作系统,日志,SNMP,电子邮件,国际劳工组织(ILO)报告,并点亮可见光指示健康。

  • RAM :POST过程将检测RAM状态,以及系统向OS,日志,SNMP,电子邮件,ILO报告并点亮前面板Systems Insight Display(SID)上的LED指示灯。 另外,我不是RAM老化过程的粉丝,因为这些系统的错误检测已经很强大。

  • 热量和风扇 :服务器温度和风扇速度由国际劳工组织pipe理。 这些系统有30多个温度传感器 ,所以冷却系统非常高效。 这仍然报告给操作系统,日志,SNMP,电子邮件和SID。

  • 电源 :PSU状态报告给操作系统,日志,SNMP,电子邮件和SID,以及实际电源单元上的实际指示灯。

  • 总体健康状况 :除了内部健康状况和外部健康状况指示灯之外,还可以通过SID显示屏轻松评估。 这也报告给服务器的日志,SNMP,电子邮件和国际劳工组织。

在这里输入图像描述

我无法想象在运行时或安装操作系统之后,在部署前不会/不能报告的任何条件。

在系统上运行时,诊断循环通常不会find任何明显的先前问题。 这主要是因为服务器需要POST并启动到实用程序或Intelligent Provisioning固件才能运行该实用程序。

换句话说,对于服务器来说,任何会成为严重“SPOF”的项目都可能阻止系统运行其自我诊断。

最常见的失败项目仍然相当强劲; 磁盘应该在RAID中并且是可热插拔的。 风扇和电源也是热插拔的。 您的RAM具有ECC阈值,大多数ProLiant平台都有在线备用选项。 没有任何事情可以通过运行诊断程序来引起这些组件中的故障。 添加使用HP C7000刀片服务器机箱的事实,这些机箱内部有冗余 ,故障率应该很低。