我在10个节点上安装了Sun Grid Engine,并安装了一个虚拟主控主机。
现在我必须在开始投入生产之前监视所有的资源,但是我不知道哪个是最好的方法。 我试过使用xml-qstat,但似乎不稳定。
任何提示或build议?
任何人都有这方面的经验?
谢谢。
你可以使用Ganglia 。 我们在荷兰计算中心使用Ganglia和1000个节点,而且大部分情况下,它似乎工作得很好,特别是如果你正在寻找历史图表。 Nagios用于主动监视。
如果我正确理解你,你需要监视一堆网格服务器。 你有什么样的监控? 也许像Nagios一些额外的脚本可以满足您的需求?
这里有一个例子。
为了logging,Munin( http://munin-monitoring.org/ )也非常好。
这听起来像是你比对正常运行时间或可用性更感兴趣。 Circonus( http://crystus.com/ )非常适合这里。 您可以关联几乎所有可以通过Resmon XML DTD导入的度量标准。