三花快讯 · 2024, 7月17日

阿里 Qwen2-Audio:大规模音频语言模型

根据语音指令执行音频分析或直接响应文本

Qwen2-Audio 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本。提供两种交互方式:

语音聊天 voice chat:用户可以自由地与 Qwen2-Audio 进行语音互动,而无需文本输入; 音频分析 audio analysis:用户可以在互动过程中提供音频和文本指令对音频进行分析;

不过目前这两个模型还没有开源,可以期待一下!

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。