三花快讯 · 2024, 8月12日

阿里 Qwen2-Audio:开启语音对话

支持语音、文本输入,且没有用到ASR模型

阿里 Qwen2-Audio 是 Qwen-Audio 的下一代版本。这个新版本能够接受音频和文本输入,并生成文本输出,可以在Qwen2-Audio Collections下载模型和试用演示。

主要特性如下:

  • 语音聊天:使用语音直接向模型发出指令,而无需自动语音识别(ASR)模块。
  • 音频分析:支持分析包括语音、声音、音乐等在内的音频信息,并结合文本指令进行处理。
  • 多语言支持:支持超过 8 种语言/方言,例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。