我不知道这个问题应该在Server Fault还是Stack Oveflow上,但是我想我会先在这里试试。
我有一个python应用程序,使得对os文件系统调用(如stat和getcwd)进行了相当多的调用。 该应用程序正由LGE文件系统上的SGE队列pipe理器运行,该文件系统通过infiniband互连连接到节点。
系统最大的部分工作正常。 但偶尔一个文件将失败,或getcwd将返回我的主目录,而不是应用程序已经运行的目录。 毫秒后,它将再次返回正确的结果。
我不是系统pipe理员,我正在与系统pipe理员一起锻炼应用程序可以做的事情。 我敢肯定,发生这种情况时,任何地方都不会logging错误,也不会logging目录的实际变化。
这个问题目前完全是零星的,我们无法使其重现。
有谁知道可能会发生什么?