三花快讯 · 2024, 8月7日

面壁 MiniCPM-V 2.6:最强开源端侧多模态 LLM

宣称单图、多图和视频理解性能超越了 GPT-4V

MiniCPM-V 2.6 基于 SigLip-400M 和 Qwen2-7B 构建,共 8B 参数,性能提升显著,并引入了多图和视频理解的新功能。

官方宣称单图、多图和视频理解性能超越了 GPT-4V。在单图理解上,它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等商用闭源模型的表现。

视频演示的 iPad 应用我没找到,有找到的评论区可以踢一下,不过这里有一个在线试用地址:http://120.92.209.146:8887/

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。