耗尽所有内存后LSF节点死亡

我有一个LSF集群,并遇到以下问题。

一段时间后,随机操作系统进程开始死亡(他们成为僵尸或不存在),并且LSF节点不报告任何麻烦回到NSF主。 我相信这是由LSF任务耗尽节点上的内存(128GB)引起的。

任务以非根LSF用户身份运行。

题。 我怎样才能让LSF任务而不是OS进程?

任何其他的build议和想法将不胜感激。

(我在此承认记忆是困难的。)