我正在尝试编写一个shell脚本,以便在使用for循环的数百万行的大文件中查找重复性单词后存储的值。 find重复的单词之后,我如何让脚本在文件中的当前行之后开始search,以便循环迭代时不会从文件的开始处开始search。
简单地说,如何在文件中查找当前行,以及如何在循环重新迭代时从该行开始search,而不是从头开始search。
我可以运行多less个并行控制器,有没有限制,或者我们需要运行,取决于我们的CPU和RAM的利用率。
如果程序启动成功,这就是我在日志文件中查找的内容。
要查找当前文件大小,您可以使用:
current_pos=$(stat -c "%s" file)
然后你使用输出
tail -c +$current_pos file
从记住的位置开始search。
但是,当你读取文件大小(也是当你search的时候)最后一行是不完整的。 这取决于写入文件的程序。