我有一个红帽5.1服务器64位戴尔2950与PERC 5 / i控制器,直到最近工作正常。
在它上面我有一个NRPE命令check_openmange开始返回错误:
/usr/local/nagios/libexec/check_openmanage Storage Error! No controllers found Problem running 'omreport chassis memory': Error: Memory object not found Problem running 'omreport chassis fans': Error! No fan probes found on this system. Problem running 'omreport chassis temps': Error! No temperature probes found on this system. Problem running 'omreport chassis volts': Error! No voltage probes found on this system.
显然这些组件在系统启动和运行时存在。 我可以访问Dell Open Manage的Web界面,并且报告一切都是绿色的。
检查openmange使用omreport工具,直接产生上述错误:
[root@lynx tmp]# omreport storage controller No controllers found
我在网上发现了许多与OMSA和64位RHEL 5和CentOS 5有关的问题,他们build议在64位系统上运行32位软件:
不过,我已经在运行32位软件了:
Installed Packages Name : srvadmin-storage Arch : i386 Version: 6.5.0 Release: 1.201.2.el5 Size : 8.4 M Repo : installed Summary: Storage Management accessors package, 3.5.0
此外,大部分这些职位似乎与PERC 4有关,而我的是PERC 5.这个检查和报告直到最近才稳定下来,并且已经有数个月的生产负载,这使我犹豫不决采取这些步骤。 然而,我还没有find这个行为改变的原因。
有没有人遇到过PERC 5的这个问题?
有没有人对诊断步骤或解决scheme有进一步的想法?
我假定您已经完成了重新启动OMSA( service dataeng restart )的基本故障排除步骤,并确保已加载IPMI:
service dataeng stop service dsm_sa_ipmi start service dataeng start
这个问题的一个常见的不明显的原因是系统信号量耗尽。 检查你的系统日志; 如果你看到这样的东西:
Server Administrator (Shared Library): Data Engine EventID: 0 A semaphore set has to be created but the system limit for the maximum number of semaphore sets has been exceeded
那么你就没有信号量了。
您可以运行ipcs -s来列出当前在系统上分配的所有信号量,然后使用ipcrm -s <id>删除信号量(如果您确信不再需要它)。 您可能还想跟踪创build它们的程序(使用来自ipcs -s -i <id> )以确保它不泄漏信号量。 根据我的经验,尽pipe大多数泄漏来自程序,但是它们可以在运行清理代码之前被中断(通过段错误或类似的)。
如果您的系统确实需要所有当前分配的信号量,则可以增加可用的信号量。 运行sysctl -a | grep kernel.sem sysctl -a | grep kernel.sem查看当前设置是什么。 最后的数字是系统上可用的信号量(通常为128)。 将该行复制到/etc/sysctl.conf ,将最后一个数字更改为更大的值,将其保存并运行sysctl -p加载新设置。
我遇到了Nagios工作计划检查Openmanage的主机。 它会performance为Nagios所拥有的大量过时的信号量。
我每晚都cron十分钟的工作,去找两个不同的目录, 任何出现在两个列表中的东西都被认为是陈旧的。 (显然要根据你的情况调整。)
nagioi () { ipcs -a | awk '$3 == "nagios" { print $2 }' } # Run two listings, 10 minutes apart # The ones which are in both listings are definitely stuck (nagioi; sleep 600; nagioi) | sort | uniq -d | xargs -n 1 -r -t ipcrm -s
asciiphil的入侵为我工作。 在我的情况下, nrpe有很多开放式pipe理相关的信号量。 清理出来,重新启动一切。
这失败了:
omreport chassis memory Memory Information Error : Memory object not found
确保有足够的信号量:
sysctl -a | grep kernel.sem ipcs -s |wc -l
停止使用omreport nrpe :
/etc/init.d/nrpe stop
删除nrpe信号量:
ipcs -s | awk '/nrpe/ {print "ipcrm -s ",$2} ' | sh /etc/init.d/dataeng stop /etc/init.d/dsm_sa_ipmi stop /etc/init.d/dsm_sa_ipmi start /etc/init.d/dataeng start
确保它开始很好
tail -n 50 /var/log/messages
testing:
omreport chassis memory
重新启动nrpe :
/etc/init.d/nrpe restart
试试/etc/init.d/dataeng start和/etc/init.d/dsm_om_shrsvc start