三花快讯 · 2024, 9月14日

GOT-OCR2_0:下一代 OCR 模型

确实比传统 OCR 要好一些

在这个大模型时代的,传统的 OCR 模型已经力不从心, GOT-OCR是一个 580M 参数的模型,它将所有普通文本、数学/分子公式、表格、图表、乐谱甚至几何图形都视为“字符”统一处理,还支持输出多种格式,如纯文本、markdown 等,此外,还支持通过坐标或颜色来精准提取要识别的区域。

作者在知乎上有一篇详细的介绍:GOT-OCR-2.0 模型开源,你还可以在 Tonic/GOT-OCR 这免费试用

拿音标试了下,还是挺难的,不过确实比传统 OCR 要好一些,再接一层大模型洗一下数据应该会好点。

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。