除了惠普提供的工具之外,是否还有任何其他工具用于从RHEL5监控这些服务器中的组件故障?
HP ASM工具和SNMP OID是我们主要用于通用组件监控的产品。
或者,也可以使用smartmontools来监视磁盘驱动器,大多数传感器应显示在lm_sensors
惠普的硬件钩子本身就是专有的,但是他们通过SNMP / WMI / WBEM等一些“开放”方法来暴露他们的设备。所以你不必使用SIM / SMHP。
您应该安装惠普的全套工具,hpasm / hprsm软件包等,它们实际上是我见过的最难安装的软件包。 看起来他们是由人们写的,无需担心易于部署。 他们提供了一个可以手动运行的shell脚本,首先使用这个脚本,直到找出如何破解脚本,编写包装,单独安装RPM,或者依靠瘦客户机或供应商行为合理。
您应该监视系统日志从这些工具的错误。
你应该parsinghpasmcli(show server,show dimm)和hpacucli(控制器都显示,然后为每个控制器插槽= X pd all show)输出来识别故障。 如果您依赖系统日志报告,您将错过失败并且有令人尴尬的灾难。
您也应该parsinghplog输出,并在检查输出后清除输出,将输出归档到某处。 考虑这个冗余检查到hpasmcli / hpacucli检查。
您应该使用hponcfg来确保ILO已configuration,并连接到它以确保它实际上是响应。
确保您可以升级固件,并定期进行。 惠普发布了关键的固件升级,例如,在不将错误的DIMM识别为故障灯的情况下,从小的内存错误中解决问题。 惠普改变了我对升级固件的看法,当它不是绝对需要的时候。 (呃,这绝对是必须的,你没有人告诉你)。
放弃SNMP的东西。 你有很多工作要做,这只是额外的工作,不会给你所需要的全部function,所以你仍然需要做其他的工作。
HP服务器在报告/pipe理硬件问题方面仍然是最好的英特尔服务器。 他们只是有一些非常烦人的问题。 也许如果每个客户都抱怨,至less一次他们会使部署更容易。 这没有任何借口。
运行RHEL5的DL3 [0] G5和持续监控的HPpipe理工具以及偶尔的磁盘和内存压力testing将成为市场上最可靠的英特尔解决scheme。 只要尽你的努力,以确保你得到你的钱的价值。 惠普为您提供的工具,他们只是不使他们应该很容易使用。
只能使用HP RAM。 否则不值得麻烦。 当DIMM发生故障时,您不需要互相指责的供应商。
定期对故障灯进行数据中心漫游,并用它来纠正监控脚本中的故障。 这就是我如何学习syslog几乎没有用的,你必须定期检查hpasmcli / hpacucli。