三花快讯 · 2024, 4月17日

Tango 2: 优化文本到音频生成

Tango 2 通过直接偏好优化(DPO)技术,改进了文本到音频的生成模型

Prompt:A dog barking and a cat mewing and a racing car passes by
提示词:狗叫、猫叫、赛车经过

Tango 2 通过直接偏好优化(DPO)技术,改进了文本到音频的生成模型,使用自动创建的偏好数据集提升音频输出的质量,使其更加符合文本描述。

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。