为什么我的纱线工作缓慢/卡住?

我有一个hadoop纱线集群,其工作运行非常缓慢,其中一些卡住了几个小时(以前同样的工作很快,没有什么据我们所知已经改变了configuration)。

我注意到的一件事是,许多集群资源没有被利用: Containers running: 465; Memory used: 3.51 TB; Memory total: 6.57 TB Vcores used: 473; Vcores total: 1310 Containers running: 465; Memory used: 3.51 TB; Memory total: 6.57 TB Vcores used: 473; Vcores total: 1310 Containers running: 465; Memory used: 3.51 TB; Memory total: 6.57 TB Vcores used: 473; Vcores total: 1310你可以看到大约一半的V核和一半的RAM甚至没有被用于工作。 为什么是这样? 如果有工作被卡住,其他工作悬而未决,那么资源pipe理器不应该将这些工作分散到未使用的节点pipe理器中吗? 这可能是我需要了解的第一个问题。