三花快讯 · 2025, 3月3日

OlmOCR:开源 OCR 解决方案

批量处理 100 万页 PDF 仅需 190 美元

OlmOCR 是由 Allen Institute for AI 开发的一款开源 OCR 工具,专门用于从 PDF 或图片中提取文字,并保留标题、表格等结构信息,甚至能够识别手写内容。

该模型不仅识别精度高,还能理解阅读顺序,并输出 Markdown 格式。批量处理 100 万页 PDF 的成本仅为 190 美元,佬们可以在官网上传几页进行测试下效果,或者选择自部署。

总体确实非常不错,不过音标识别方面还是差点意思。

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。