调用pythons os.getcwd在Lustre文件系统上返回奇怪的结果

我不知道这个问题应该在Server Fault还是Stack Oveflow上,但是我想我会先在这里试试。

我有一个python应用程序,使得对os文件系统调用(如stat和getcwd)进行了相当多的调用。 该应用程序正由LGE文件系统上的SGE队列pipe理器运行,该文件系统通过infiniband互连连接到节点。

系统最大的部分工作正常。 但偶尔一个文件将失败,或getcwd将返回我的主目录,而不是应用程序已经运行的目录。 毫秒后,它将再次返回正确的结果。

我不是系统pipe理员,我正在与系统pipe理员一起锻炼应用程序可以做的事情。 我敢肯定,发生这种情况时,任何地方都不会logging错误,也不会logging目录的实际变化。

这个问题目前完全是零星的,我们无法使其重现。

有谁知道可能会发生什么?