GOT-OCR2_0：下一代 OCR 模型 | 三花 AI | 免费 AI 应用 | 1000+ AI 导航合集

在这个大模型时代的，传统的 OCR 模型已经力不从心， GOT-OCR是一个 580M 参数的模型，它将所有普通文本、数学/分子公式、表格、图表、乐谱甚至几何图形都视为“字符”统一处理，还支持输出多种格式，如纯文本、markdown 等，此外，还支持通过坐标或颜色来精准提取要识别的区域。

作者在知乎上有一篇详细的介绍：GOT-OCR-2.0 模型开源，你还可以在 Tonic/GOT-OCR 这免费试用

拿音标试了下，还是挺难的，不过确实比传统 OCR 要好一些，再接一层大模型洗一下数据应该会好点。

商业转载请联系三花微信公众号获得授权，非商业转载请注明本文出处及文章链接，您可以自由地在任何媒体以任何形式复制和分发作品，也可以修改和创作，但是分发衍生作品时必须采用相同的许可协议。

腾讯 GameGen-O：首个专用于生成开放世界游戏的视频模型

支持多模态交互控制