我正在运行一个AWS EC2系统,在实例之间有一个共享的NFS分区(5x m3.medium)。 我正在上传一个不断增加的二进制文件,速度比我的最大带宽低10倍(在2.5MBpipe道上传250kBs),使用rsync --append 。 同时,我正在分析NFS分区上的文件,并使用MPI分配这些计算。
虽然rsync没有运行,但使用MPI的分析工作正常,需要5秒钟才能运行二进制文件。 当rsync正在运行时,实例之间的MPI通信会进行爬网,需要几个小时才能完成相同的任务。 分析脚本花费大量时间在MPI_File_read_at()命令上,读取NFS共享分区上的二进制文件。 当我停止rsync并重新运行分析时,速度是正常的。
我已经在这个问题上工作了几天,并没有取得太大的进展。 我不确定问题是在rsync文件上使用MPI还是通过NFS更新文件,或者是什么。 我已经明显地限制了rsync的带宽( rsync --bwlimit=X ),并且减速仍然发生。
我没有太多的这些工具的经验,但只是试图得到一个系统,目前的作品。 如果有人知道什么会导致这种滞后,或者我使用的这些方法之间的其他不兼容性,我将不胜感激。