三花快讯 · 2024, 10月8日

Meta 发布 Movie Gen:最先进的媒体生成模型

支持多模态输入和精准视频编辑

官网是由 Meta 发布的系列模型,官方宣称这是迄今为止最先进的媒体基础模型。该系列包括两个主要模型:

  1. Movie Gen Video:这是一个拥有 30B 参数的 transformer 模型,支持文本生成图像和视频。
  2. Movie Gen Audio:这是一个拥有 13B 参数的 transformer 模型,支持视频配音(文本引导),能够生成环境音、背景音乐和拟音。

尽管目前仅发布了官网和 92 页的论文,Meta 尚未表态是否会开源,但从官网的演示来看,Movie Gen 支持多模态输入,自带角色一致性,还能通过提示词精准编辑视频,功能非常强大,值得期待。

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。