任何工具,以类似于Acrobat的OCRfunction的方式自动化扫描PDF文件的OCR?

开源首选,但不是必需的。

我已经安装了Adobe Acrobat 8​​,并且非常喜欢OCRfunction,它可以在扫描文档的顶部放置一层OCR文字。 因此,您在屏幕上看到的是原始扫描的文档,但结果是可search的。

我正在寻找的是一种使这个过程自动化的方法。 目前,我有一些脚本用于处理和归档扫描的文件,并且正在寻找一些我可以直接插入到这个批处理过程中的东西,以类似于我能用Acrobat做的方式进行OCR。

所有的build议欢迎,谢谢!

我已经在一个公司文档archveiving项目中实现了。 扫描的文件是一个tif文件(单个页面)。 然后使用楔形文件创build单个tif的hocr文件。 然后使用hocr2pdf输出PDF文件。 如果有多个扫描页面,我使用gs将PDF合并到单个PDF文档中。 工作得很好,OCR足够满足我们的需求,可以在任何PDF阅读器中search。

我喜欢Xeon的答案,尽pipeOCRopus听起来很有趣。