开源首选,但不是必需的。
我已经安装了Adobe Acrobat 8,并且非常喜欢OCRfunction,它可以在扫描文档的顶部放置一层OCR文字。 因此,您在屏幕上看到的是原始扫描的文档,但结果是可search的。
我正在寻找的是一种使这个过程自动化的方法。 目前,我有一些脚本用于处理和归档扫描的文件,并且正在寻找一些我可以直接插入到这个批处理过程中的东西,以类似于我能用Acrobat做的方式进行OCR。
所有的build议欢迎,谢谢!
我已经在一个公司文档archveiving项目中实现了。 扫描的文件是一个tif文件(单个页面)。 然后使用楔形文件创build单个tif的hocr文件。 然后使用hocr2pdf输出PDF文件。 如果有多个扫描页面,我使用gs将PDF合并到单个PDF文档中。 工作得很好,OCR足够满足我们的需求,可以在任何PDF阅读器中search。
你看过WatchOCR吗? 您可以从http://www.watchocr.com下载它是一个免费的开放源代码OCR服务器,可以将图片仅转换为文本文件或networking共享文本可search的PDF文件。
我喜欢Xeon的答案,尽pipeOCRopus听起来很有趣。