监视电脑网格的最佳方法是什么?

我在10个节点上安装了Sun Grid Engine,并安装了一个虚拟主控主机。

现在我必须在开始投入生产之前监视所有的资源,但是我不知道哪个是最好的方法。 我试过使用xml-qstat,但似乎不稳定。

任何提示或build议?

任何人都有这方面的经验?

谢谢。

你可以使用Ganglia 。 我们在荷兰计算中心使用Ganglia和1000个节点,而且大部分情况下,它似乎工作得很好,特别是如果你正在寻找历史图表。 Nagios用于主动监视。

如果我正确理解你,你需要监视一堆网格服务器。 你有什么样的监控? 也许像Nagios一些额外的脚本可以满足您的需求?

这里有一个例子。

为了logging,Munin( http://munin-monitoring.org/ )也非常好。

这听起来像是你比对正常运行时间或可用性更感兴趣。 Circonus( http://crystus.com/ )非常适合这里。 您可以关联几乎所有可以通过Resmon XML DTD导入的度量标准。