三花快讯

搜索...

一觉醒来看三花,分分钟 Get 全网 AI 动态

2025, 8月26日

8月26日

微软开源的 VibeVoice-1.5B 文本转语音框架可生成长达 90 分钟的连续语音,并支持 4 个不同说话人切换,特别适合播客等长篇音频内容制作。

虽然支持中文生成,但语音带者'大佐味',听起来还挺有趣,有点像外国人口音。

微信正在「快讯」页面灰度测试「听快讯」功能,不是传统单音播报模式,而是采用双人 AI 主播对话形式,将新闻以更自然、更具交流感的方式讲述出来。

目前该功能仍处于测试阶段,佬们可以在微信搜索「快讯」,进入后点击右上角「听快讯」体验,如果没看到这个选项,说明还没灰度到你哦!

阿里通义万相团队在 X 上发布预告,即将推出新模型 Wan 2.2-S2V。

该模型似乎不仅能生成视频,还能一并生成音频(源推引用了一条带唱歌音频的 AI 视频)。

NotebookLM 的 Video Overviews 现已支持 80 种语言(包括简体中文),大幅提升了多语言内容处理能力。

同时,Audio Overviews 功能同步升级,新增生成长度选择功能,用户可在「短版/默认版」之间自由切换。

这个 Video Overviews 功能确实非常实用,强烈推荐佬们都试试!它生成的 PPT 采用演讲优先、内容辅助的设计理念,与市面上常见的将内容堆砌在页面中的 PPT 完全不一样。

Genspark 最新推出的AI Designer 智能体,定位为'AI 员工',仅需一条提示就能为用户生成从品牌标志到完整视觉系统的全套设计方案。

图中演示了一个咖啡品牌案例,所有设计内容——包括 Logo、店铺装修、打印物料、产品包装、网站和 APP 界面、广告及社媒海报——全部由 AI 生成。

2025, 8月25日

8月25日

Learn About 是谷歌推出的 AI 学习工具。只需输入想学的主题,系统会即刻生成一份类似维基百科但更注重学习场景的互动文档。

这似乎是对标 OpenAI 的 Study 功能,目前已经可以免费使用,但需要美国 IP 且仅支持英语(即使要求使用中文也不行)

nano-banana 的图片编辑效果令人惊艳,但目前只能在 LMArena 平台的众多模型中随机体验。如何提高抽中它的概率?

大佬 Gorden_Sun 分享了一个技巧:额外上传一张全透明的小图片。

因为只有 nano-banana 等少数模型支持多图输入,而透明图片完全不影响实际使用效果。亲测非常有用,佬们可以赶紧试试这个骚操作!

马斯克兑现了「旧模型持续开源」的承诺,xAI 正式开源 Grok 2 模型,提供完整权重和详细部署指南。

此外老马还预告,Grok 3 将在半年内继续开源,这波操作属实良心!

Mobile-Agent 3是阿里开源的多智能体框架,具备端到端操作能力。该框架基于视觉多模态模型 GUI-Owl,目前支持控制 PC、Web 和手机。

从演示来看效果确实不错,不过说实话还没有 AutoGLM 做得那么完善,但贵在开源啊!

Neo AI 是首个宣称完全自主的机器学习工程师,能够独立解决复杂的数据科学、机器学习和生成式人工智能(Gen AI)工程任务。

目前正在早期测试阶段,有兴趣的佬们可以加入候补名单抢先体验。