任何工具，以类似于Acrobat的OCRfunction的方式自动化扫描PDF文件的OCR？服务器 Gind.cn

开源首选，但不是必需的。

我已经安装了Adobe Acrobat 8，并且非常喜欢OCRfunction，它可以在扫描文档的顶部放置一层OCR文字。因此，您在屏幕上看到的是原始扫描的文档，但结果是可search的。

我正在寻找的是一种使这个过程自动化的方法。目前，我有一些脚本用于处理和归档扫描的文件，并且正在寻找一些我可以直接插入到这个批处理过程中的东西，以类似于我能用Acrobat做的方式进行OCR。

所有的build议欢迎，谢谢！

我已经在一个公司文档archveiving项目中实现了。扫描的文件是一个tif文件（单个页面）。然后使用楔形文件创build单个tif的hocr文件。然后使用hocr2pdf输出PDF文件。如果有多个扫描页面，我使用gs将PDF合并到单个PDF文档中。工作得很好，OCR足够满足我们的需求，可以在任何PDF阅读器中search。

你看过WatchOCR吗？您可以从http://www.watchocr.com下载它是一个免费的开放源代码OCR服务器，可以将图片仅转换为文本文件或networking共享文本可search的PDF文件。

我喜欢Xeon的答案，尽pipeOCRopus听起来很有趣。