三花快讯
一觉醒来看三花,分分钟 Get 全网 AI 动态
2025, 3月28日
据推友消息,曾经的 AI 绘画领域的领头人 Midjourney 即将在下周发布 V7 版本。目前官方尚未透露具体更新细节。
不过说实话,如果没有什么非常逆天的能力更新,那么估计会和 Ideogram 3.0 一样淹没在昨天 4o 的各种吉卜力画风的浪潮中。
OpenAI 在 ChatGPT 中发布了更新的 GPT-4o,改进了提示词遵循、编程能力和创造力,减少了 emoji 输出,现在付费用户可以使用了,免费用户将在未来几周内获得使用权限。
此外,OpenAI Agents SDK 现在也正式支持 MCP 协议了,这下MCP真的要起飞了。
zenctrl_tools 是一个多功能图像处理 Agent,致力于自动化整个个性化视觉内容创作流程。目前项目正在积极开发中,部分模型权重已经开放,代码即将开源。
开发团队昨日发布了首个官方演示,并表示将逐步开源以下核心功能:
- 控制能力:
- 预处理:背景移除、抠图、重塑、分割等
- 控制模型:支持形状(Canny/HED/涂鸦/深度等)、姿态、蒙版、相机视角
- 后处理:图像增强、色彩校正、混合
- 编辑功能:修复(移除/蒙版混合/替换)、外扩、运动变换、重新照明
- 任务处理:
- 背景生成
- 受控背景生成
- 上下文连贯生成
- 对象放置
- 视频生成
- 多对象合并/混合
- 应用场景:
- 产品摄影
- 时尚配饰虚拟适配
- 虚拟试穿
- 人物图像处理
可以关注我为你持续跟进项目进展~
2025, 3月27日
阿里通义团队发布了 Qwen 2.5-Omni-7B 模型,OpenAI 高级语音模式的开源平替。
这个模型能够无缝处理文本、图像、音频和视频等多种输入形式。
不用客户端,佬们可以在 qwen.ai 上直接语音或视频聊天。该模型同样基于 Apache 2.0 许可开源,完整细节可以看官方博客
AI 图像生成平台 Ideogram 正式发布了 3.0 版本模型,在真实感、创意表现和图像一致性方面都有提升。
新版本现已在其官网开放使用,所用用户都可以使用,每次消耗 4 个积分。
不过目前官方尚未公布 API 接口和具体定价方案,根据我的经验,这种级别的模型服务估计不会太便宜。感兴趣的佬可以查看官方推文中的详细介绍和示例。
2025, 3月26日
OpenAI 推出了 GPT-4o 的图像生成功能,它取代了此前使用的DALL-E 3模型,利用GPT-4o的原生多模态能力,能够支持渲染文本,支持从写实风格到艺术插图的多种风格,能处理复杂的用户指令,并保持一致性,还能通过多轮对话逐步调整和完善图像。
目前,该功能已集成到 ChatGPT 中,所有人都可以在对话中输入生图请求即可使用,API 将在未来几周内提供。当然这玩意不是万能的,偶尔会出现幻觉(hallucination)、数学图表生成不够准确,以及多语言文本支持有限。
更多细节和演示可以看官方介绍。
DeepSeek 前天低调发布了 V3-0324 模型更新,昨天终于发布了官方公告。
主要更新内容包括:
- 借鉴 DeepSeek-R1 模型大幅提升推理能力
- 在前端开发任务(如 HTML 等代码生成)上表现更出色,代码可用性和设计美观度都有提升。(前端佬们又要失业了
- 中文写作基于 R1 的写作水平进一步优化,特别提升了中长篇内容质量
- 中文搜索能力显著优化
此外,在工具调用、角色扮演、问答闲聊等方面也有明显的能力提升。
该模型目前在 Artificial Analysis 排行榜中成为得分最高的非推理模型 - 这也是开源非推理模型的首次领先,是开源模型的里程碑时刻啊!
2025, 3月26日
谷歌 Gemini 2.5 Pro 实验版发布:登顶 Chatbot Arena
谷歌正式推出 Gemini 2.5 Pro 实验版(gemini-2.5-pro-exp-03-25),这是一款推理模型,在 Chatbot Arena 评测中荣登榜首。
它支持高达 100 万 token 的上下文窗口,能够处理和理解多模态内容——包括文本、音频、图像、视频甚至整个代码库。
佬们可以在 ai.dev 上免费试用(官方博客有完整更新细节),不过免费版本注意速率限制:每分钟 2 次请求,每天上限 50 次请求。
2025, 3月25日
2025, 3月25日
谷歌 AI Studio 现可通过 ai.dev 快捷访问
谷歌 AI Studio 现在可以通过 ai.dev 域名直接访问了。
ai.com 这个域名的持有者目前仍指向 DeepSeek。
DeepSeek V3-0324 模型低调更新,虽然没有官方公告,但已在 HF 上开源。我看评论区有人说新版本已上线官网,记得关闭深度思考。