三花快讯 · 2024, 10月4日

OpenAI 推出 Realtime API:简化语音助手开发

微软 Azure AI 也支持这一接口

在 OpenAI 开发者大会上,Realtime APIgpt-4o-realtime-preview 模型正式亮相,该接口支持同时输入音频或文字,极大地简化了开发语音助手的流程。过去,开发者需要先使用 Whisper 进行语音转文字,再将文字传递给大模型,最后通过 TTS 转换回语音,这一过程不仅延迟高,效果也比较差。现在,一个接口就能搞定,虽然价格挺贵——每分钟的音频输入费用约为 0.06 USD,音频输出每分钟的费用约为 0.24 USD。此外,微软 Azure AI 也已支持这一接口,你可以在 Azure Realtime API 了解更多。

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。