三花快讯 · 2025, 10月15日

Nanonets 开源 OCR 2 系列模型:图像文档转结构化 Markdown

基于 Qwen2-VL 微调支持视觉问答

Nanonets 发布并开源了 OCR 2 系列模型,包括 Nanonets-OCR2-Plus、Nanonets-OCR2-3B 与 Nanonets-OCR2-1.5B-exp 三个版本。该系列模型专注于将图像文档转换为结构化 Markdown,并支持视觉问答功能。

其背后是基于 Qwen2-VL 微调而来,3B 版本在超过 300 万页的混合文档上进行训练,覆盖了论文、财报、合同、病历、税表、收据、手写及多语种材料,有需要的佬可以看看。

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。