Google 宣布 Gemini 1.5 Pro 开放API | 三花 AI | 免费 AI 应用 | 1000+ AI 导航合集

现已在180多个国家提供, 新增对原生音频（语音）理解能力、文件API、系统指令、JSON模式等功能

现在Gemini模型能够直接处理音频输入，而不需要将音频先转换为文本。

Gemini 1.5 Pro扩展了输入模态，包括在Gemini API和Google AI Studio中理解音频（语音）。

此外，Gemini 1.5 Pro能够对上传到Google AI Studio中的视频进行图像（帧）和音频（语音）的同时推理，意味着这个模型具备了理解和处理视频内容的能力，不仅限于视频的视觉部分（如图像帧），也包括音频部分（如对话、背景音乐等）。

原始博文：https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

商业转载请联系三花微信公众号获得授权，非商业转载请注明本文出处及文章链接，您可以自由地在任何媒体以任何形式复制和分发作品，也可以修改和创作，但是分发衍生作品时必须采用相同的许可协议。

OpenAI 发布了GPT-4-Turbo 正式版

带有视觉能力，上下文 128k, 主要信息包括：

Suno劲敌终于露出了面目

@udiomusic，此前曾曝光过两段音乐，据说比 Suno 强大 10 倍