三花快讯 · 2025, 1月7日
阿里开源 VideoRefer:利用 LLM 实现视频对象感知与推理
支持单帧和多帧输入的细粒度感知
VideoRefer 是阿里开源的一项专门用于视频中对象的感知和推理的技术。该技术包括数据集、模型和基准测试三大核心组件,能够对用户定义的区域进行细粒度的感知、推理和检索,支持单帧和多帧输入。简单来说,就是利用 LLM 来理解视频内容。目前,该模型的代码和模型均已开源。
商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。
本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。