三花快讯 · 2024, 7月8日

阿里 FunAudioLLM:增强人类和 AI 用自然语音交互

语音识别+LLMS+语音生成,强烈推荐试试看

FunAudioLLM 是阿里通义团队发布的用于增强人和 LLMS 语音交流的框架,包含了:

  • SenseVoice:支持 50 多种语音和情感识别的语音识别
  • CosyVoice:支持多语言、跨语言、语音克隆,自然情感语音生成

都在 modelscope 上有免费试用,FunAudioLLM 能够轻松与 LLMS 集成,能实现语音翻译、情感语音聊天、交互式播客和有声读物等。

整体效果比起之前字节的 Seed-TTS 略差,不过强在开源了,并且现在你就可以直接用了!

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。

三花 AI 导航 Logo