腾讯 Oryx：多模态视觉理解模型 | 三花 AI | 免费 AI 应用 | 1000+ AI 导航合集

由腾讯出品的Oryx是一款统一的多模态模型，专注于图像、视频和多视角 3D 场景的时空理解。该模型能够高效处理任意空间尺寸和时间长度的视觉输入，在同时处理图像、视频和 3D 数据上表现出色，实现了多模态理解的高效无缝处理。

在官方提供的多个图像/视频理解基准测试得分表现下，34B 参数的模型远超所有开源 MLLM 模型，同时还超越了 OpenAI 的 GPT-4V，当然比起 GPT-4o 还是稍逊一筹。3D 空间理解的任务甚至比专门的理解 3D 的模型得分还要高。

商业转载请联系三花微信公众号获得授权，非商业转载请注明本文出处及文章链接，您可以自由地在任何媒体以任何形式复制和分发作品，也可以修改和创作，但是分发衍生作品时必须采用相同的许可协议。

腾讯 LVCD 动漫线稿视频上色

采用了 ControlNet 技术，即线稿引导视频生成

Cogstudio：专为 CogVideo 设计的 WebUI

支持文本转视频、视频转视频、图像转视频、长视频扩展等功能