三花快讯 · 2024, 9月23日

腾讯 Oryx:多模态视觉理解模型

4B 参数的模型远超所有开源 MLLM 模型

由腾讯出品的Oryx是一款统一的多模态模型,专注于图像、视频和多视角 3D 场景的时空理解。该模型能够高效处理任意空间尺寸和时间长度的视觉输入,在同时处理图像、视频和 3D 数据上表现出色,实现了多模态理解的高效无缝处理。

在官方提供的多个图像/视频理解基准测试得分表现下,34B 参数的模型远超所有开源 MLLM 模型,同时还超越了 OpenAI 的 GPT-4V,当然比起 GPT-4o 还是稍逊一筹。3D 空间理解的任务甚至比专门的理解 3D 的模型得分还要高。

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。