三花快讯
一觉醒来看三花,分分钟 Get 全网 AI 动态
2025, 3月21日
2025, 3月21日
OpenAI 发布 o1-pro API:金子做的token
Reka Flash 3 是一款开源的 21B 通用推理模型,完全从零开始训练。它在性能上可与 o1-mini 等模型媲美,是目前同等规模中最出色的开源模型之一。
模型本身基于 Apache 2.0 开源,佬们也可以在其官网上体验。
OpenAI 昨天发布了全新的音频模型,主要包括文本转语音(Text-to-Speech, TTS)和语音转文本(Speech-to-Text, STT)两大类:
- 文本转语音模型(gpt-4o-mini-tts):
最大亮点是其“可操控性”(steerability),可以精确控制语音的语调、节奏和表达方式。佬们可以在 OpenAI FM 中测试体验。
我简单测试了下,中文 TTS 发音有的音色还是一股大佐味,而且语速慢听起来感觉怪怪的。 - 语音转文本模型(gpt-4o-transcribe 和 gpt-4o-mini-transcribe):
相较于 OpenAI 之前的 Whisper 模型,在语音识别准确性上有了显著提升,尤其是在处理多样化口音和嘈杂环境下的表现更为出色。
API 价格和 Whisper 差不多,4o约为每分钟$0.006,4o-mini约为每分钟$0.003。
更多更新细节,可以看 OpenAI 的官方博客。
2025, 3月20日
2025, 3月20日
Halfmoon 模型在生图竞技场登顶
Artificial Analysis的生图模型竞技场上出现了一款名为 Halfmoon 的模型,其 ELO 得分超越了此前的 Recraft v3 模型,以 16 分的优势登顶榜首。
佬们可以猜猜这会是谁家的模型呢?
Step-Video-TI2V 是由 StepFun(阶跃星辰)开发的图生视频模型,拥有 30B 参数,是目前开源社区中规模最大的 TI2V 模型之一。
该模型能够根据提示词和初始图生成 540p/24fps 共 5 秒的视频。采用 MIT 许可证完全开源,可以随意商用。
该模型对 GPU 要求较高,单 GPU 运行需要超大显存支持,推理时间较长(约 14 分钟),即使使用 4GPU 也需要大约 5 分钟。
Orpheus TTS 是一个开源的基于 Llama-3b 的 TTS 系统,旨在提供接近人类水平的语音合成质量。具有自然语调、情感表达和高清晰度的特点。
项目基于 Apache 2.0 许可证开源,可以商用。官方的在线演示是英文的,效果非常不错,我试了下中文,能生成,不过大佐味满满的。
2025, 3月20日
Windsurf 重磅更新:支持类 Cursor 的 tab 补全
Windsurf 宣布支持类 Cursor 的 tab 补全、导入、跳转和多行补全!最关键的是这些能力都是免费使用,Pro 用户只是响应更快,体验丝滑。
完整更新细节可以看官方博客
FlashVDM 是一种专门用于加速形状生成的通用框架,现已开源。
腾讯表示,Hunyuan3D 2.0 整个系列的模型生成速度提升了 30 倍,处理时间从 30 秒缩短至 1 秒。完全得益于 FlashVDM,它不仅支持混元系列模型,还支持加速其他模型。
2025, 3月19日
腾讯混元 3D 模型 正式更新,推出了两个新版本:3D 2.0 MV 和 3D 2.0 Mini。3D 2.0 MV 在多视角效果更好,而 3D 2.0 Mini 则参数小速度快。
昨天我还以为会发布 3.0 版本,没想到只是增强了 2.0。
对了,腾讯混元今天应该还会发布 HunYuan-T1 推理模型,大家可以继续关注一下。