三花快讯 · 2024, 12月6日

Fish Speech 1.5:TTS-Arena 排名第二开源技术

支持 13 种语言,低延迟高质量即时语音克隆

Fish Speech 1.5 正式发布,这是一项在 TTS-Arena 排名第二的开源语音合成技术,支持 13 种语言,并提供 150 毫秒以内的低延迟高质量即时语音克隆。新版本使用 1 百万小时的多语种语音训练,其中中文和英文的效果尤为出色。用户可以直接在 Fish Audio 上体验这一技术。

咱三花的小视频宝也接入了 Fish Audio,但使用过程中经常遇到空白片段的问题,尤其是中间的空白难以处理,且缺乏音色列表 API,只能通过用户输入 id 来选择音色(我猜是因为音色都是用户训练的?),体验比较差。

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。