三花快讯 · 2025, 3月21日
OpenAI 发布全新音频模型:文本转语音与语音转文本
中文 TTS 发音仍有改进空间
OpenAI 昨天发布了全新的音频模型,主要包括文本转语音(Text-to-Speech, TTS)和语音转文本(Speech-to-Text, STT)两大类:
- 文本转语音模型(gpt-4o-mini-tts):
最大亮点是其“可操控性”(steerability),可以精确控制语音的语调、节奏和表达方式。佬们可以在 OpenAI FM 中测试体验。
我简单测试了下,中文 TTS 发音有的音色还是一股大佐味,而且语速慢听起来感觉怪怪的。 - 语音转文本模型(gpt-4o-transcribe 和 gpt-4o-mini-transcribe):
相较于 OpenAI 之前的 Whisper 模型,在语音识别准确性上有了显著提升,尤其是在处理多样化口音和嘈杂环境下的表现更为出色。
API 价格和 Whisper 差不多,4o约为每分钟$0.006,4o-mini约为每分钟$0.003。
更多更新细节,可以看 OpenAI 的官方博客。
商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。
本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。