Linux进程神秘地终止

我已经花了数百小时试图追踪一个在64位CentOS 5上以随机间隔神秘结束的进程的原因,至今我还没有接近理解原因。 我们查看了OOM杀手,查看了所有可能的日志文件,在事件发生之后在服务器上完成了深度postmortems,添加了debugging代码以触发任何“exception”终止事件的核心转储等。

有问题的进程正常启动,并且经常在给定的服务器上长时间运行(数天,数周,有时甚至更长),但在随机服务器上以随机间隔运行,没有明显的因果关系,只会退出。 没有日志,没有核心文件,没有任何东西。

我不知道接下来要做什么 – 希望得到一些我没有想到的故障排除的想法。

在进程中运行straceltrace 。 您可以捕获日志文件中的所有输出,或者对其进行过滤,以便仅捕获所需的内容。 您可以使用-e标志只提取您感兴趣的内容。strace和ltrace会告诉您哪些信号被截取,进程正在做什么以及在进程终止时进行了哪些系统调用。