运行Hudson的Centos冻结,查看什么日志来查明原因?

首先,Centos 5.4(64位),大量的资源,安装Hudson( http://wiki.hudson-ci.org/display/HUDSON/Meet+Hudson ),一切都是honkey-dorey。 几天或几周后(不记得哪个),整个服务器会随机冻结,需要重新启动。 除了哈德森所需要的资源外,没有任何东西在运行。

新的演出:新安装的Centos 5.5(64位)。 一个月左右,冻结又开始了。 没有明显的原因。

我们有相同的服务器,遍布各地,服务于从Tomcat到Jboss的所有东西到基本的Apache东西,所有这些都不会被冻结或崩溃。

看来Hudson是个问题 – 我们无法弄清楚它与典型的configuration有什么不同。

所以2个问题:

  1. 那里的任何哈德逊专家都想要参加?
  2. 故障排除:什么是正确的日志要看? 我们在哪里可以find一个说“X导致系统崩溃”的条目?

我发现的最好方法是通过networking或串行连接保留某种实时日志。 有时,即使内核不能将文件保存到文件中,内核也可以将重要信息输出到已login的shell中,这样只要打开远程shell就可以提供帮助。 你也可以tail -f特定的日志文件,或者更好的是cat / proc / kmsg,看看通过ssh发送的实时内核消息。 另一个更可靠的选项是设置物理串行端口作为控制台。 我的所有服务器都支持串行控制台,并且可以使用串行terminal仿真程序(如HyperTerminal)logging整个启动,或者更好地在串行端口上使用PuTTY。 添加启动选项控制台= ttyS0将发送所有内核消息到COM1,这需要less得多的工作,而不是维护一个networking连接。 即使没有连接器,大多数主板仍然通常在主板上为COM1提供一个接头。