可以在Linux上执行OCR?

我需要一个基于Linux的服务器,可以设置为接收图像并将其转换为将插入到数据库中的文本。 这是可能的,尤其是通过一个API来允许组织与服务进行交互,如果需要的话?

Teseract似乎是最好的。 http://code.google.com/p/tesseract-ocr/

评论似乎说这是唯一一个击败重新打字的东西。 http://www.linux.com/archive/feature/138511 http://www.linux.com/archive/feed/57222

人们不是谷歌任何货币? 5分钟阅读什么我拉起“linux的ocr”作为我的search条件。

我有一个需要OCR的项目。 您可以使用GOCR作为OCR部分。 要转换成pbm图像格式,你可以使用djpeg。 如果您需要与Web集成,您可以从PHP调用conversion / ocr,也可以从这里实现DB保存。

我会build立一个消息队列并提交任务给它进行处理。 所有你真正需要做的就是将文件作为图像上传到共享存储平台,也许GlusterFS或类似的,然后推文件名和path到消息队列,进行处理。 所有你需要做的就是build立一个进程来侦听队列,然后在其上运行gocr,将输出数据推送到你的数据库中。

容易..在理论上。 ;)

你看过WatchOCR吗? 这是一个免费的开放源代码OCR服务器,只能将PDF图像转换成文本可查看的文件夹或networking共享的PDF文件。