OpenAI 发布全新音频模型：文本转语音与语音转文本 | 三花 AI | 免费 AI 应用 | 1000+ AI 导航合集

OpenAI 昨天发布了全新的音频模型，主要包括文本转语音（Text-to-Speech, TTS）和语音转文本（Speech-to-Text, STT）两大类:

文本转语音模型（gpt-4o-mini-tts）:
最大亮点是其“可操控性”（steerability），可以精确控制语音的语调、节奏和表达方式。佬们可以在 OpenAI FM 中测试体验。
我简单测试了下，中文 TTS 发音有的音色还是一股大佐味，而且语速慢听起来感觉怪怪的。
语音转文本模型（gpt-4o-transcribe 和 gpt-4o-mini-transcribe）:
相较于 OpenAI 之前的 Whisper 模型，在语音识别准确性上有了显著提升，尤其是在处理多样化口音和嘈杂环境下的表现更为出色。
API 价格和 Whisper 差不多，4o约为每分钟$0.006，4o-mini约为每分钟$0.003。

更多更新细节，可以看 OpenAI 的官方博客。

商业转载请联系三花微信公众号获得授权，非商业转载请注明本文出处及文章链接，您可以自由地在任何媒体以任何形式复制和分发作品，也可以修改和创作，但是分发衍生作品时必须采用相同的许可协议。

Roboflow 开源实时目标检测模型 RF-DETR

RF-DETR 提供两个版本适合不同资源需求

OpenAI 发布 o1-pro API：金子做的token

输入 150 美元输出 600 美元每百万 token