另一个问题是从前一个问题延伸出来[1]
我有一个压缩文件,并stream他们饲料到一个Python程序,例如
bzcat data.bz2 | parallel --no-notice -j16 --pipe python parse.py > result.txt
parse.py可以从stdin连续读取并打印到stdout
我的EC2实例是16核心,但从顶部的命令,它只显示3到4的平均负载。
从ps ,我看到很多东西,如..
sh -c 'dd bs=1 count=1 of=/tmp/7D_YxccfY7.chr 2>/dev/null';
我知道我可以改善使用-a in.txt来提高性能,但与我的情况下,我从bz2stream(我不能确切,因为我没有足够的磁盘空间)
如何提高我的情况下的效率?
[1] Gnu并行不使用所有的CPU
增加块大小:
--block 100m