三花快讯 · 2025, 6月4日

谷歌 Gemini 2.5 情感化多语言语音对话及生成

支持情境感知的高级思维对话框架

谷歌的Gemini 2.5 带来了音频交互能力升级,包括 Gemini 2.5 Flash Exp Native Audio Thinking Dialog 和 Gemini 2.5 Flash Exp Native Audio Thinking Dialog 两款模型。

该系列模型支持包括自然对话、风格控制、工具集成、情境感知、多语言支持、情感对话、高级思维对话以及可控文本转语音等特性。

NotebookLM 的 Audio Overviews 和 Project Astra 就是用的这个模型驱动的,详细介绍可以看官方博客。佬们也可以在 AI Studio 中直接使用

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。