三花快讯
一觉醒来看三花,分分钟 Get 全网 AI 动态
2025, 10月13日
Perplexity AI 开发的 Comet 浏览器现已开放,佬们可以去Google Play 商店预注册。
DreamOmni2 是开源多模态图片编辑模型,能够同时处理文本和图像指令,对图像中的具体对象或抽象属性进行精准编辑。
官方展示的效果案例相当不错,支持多种编辑功能:对象替换、灯光渲染、风格转换、姿势模仿、表情模仿、发型替换、艺术字体、艺术贴图以及背景替换。此外还支持 3 参考图、4 参考图模式。
佬们可以在线体验看看效果如何~
OpenAI 的 Sora 视频生成模型官方 Android 应用,现已在Google Play 商店上架并开放预注册。
目前仅面向美国和加拿大地区用户开,由于地区限制,佬们应该和我一样看不到预注册按钮。
2025, 10月11日
RND1(Radical Numerics Diffusion)是官方宣称规模最大、能力最强的实验性开源扩散语言模型。它通过一种名为'简单持续预训练'(Simple Continual Pretraining)的方法,基于预训练自回归模型 Qwen3-30B-A3B 转换而来。
最有趣的是,他们的目标居然是构建一个用于递归自我改进(RSI)的引擎——让 AI 能够设计下一代 AI,这波操作可以说是相当有野心了!
KAT-Dev-72B-Exp 是快手最新发布的编程专用大语言模型。该模型在 SWE-Bench Verified 基准测试中表现优异,达到了 74.6% 的准确率。
佬们可以按照其 API 平台 Streamlake 的官方文档 将其用于 Claude Code,目前完全免费使用,不嫖白不嫖!
GAGA-1 模型专为虚拟形象视频生成设计,现已开放免费试用。
官方宣称达到好莱坞级别画质,从演示效果来看确实还可以,画面比开源生态的 wan2.2 要清晰流畅一些。
阿里官方推出的 Qwen3-VL Cookbooks 教程合集,涵盖了从基础到进阶的多种 AI 应用场景:包括计算机操作智能助手、多模态编程、全场景识别、文档解析、精准目标定位、通用 OCR、关键信息提取、3D 定位、长文档理解、空间推理、移动端智能助手和视频理解等。
每个场景都配有详细的代码示例,有做类似需求的佬们可以看看。
2025, 10月10日
2025, 10月10日
三花 AI 慢讯 国庆期间发生了啥?
狠狠的放了一个大长假,今天古法阅读人力看了一遍最近发生的事情和大模型相关发布,挑出了值得关注的,佬们感兴趣可以一一查看。
值得关注
- Google 发布 Data Commons MCP
自然语言查询公共数据集
- GitHub Copilot CLI 推出公开预览版
这下都有 CLI 了
- Kimi 上线 OK Computer
你的 AI 全栈团队
- Perplexity 发布 Search API 及相关 SDK
原生 AI 搜索引擎接口
- Ollama 云提供免费 Web Search API
当然是有限免费
- Elon Musk 宣布打造 Grokipedia 开源知识库
Grok 宇宙
- Nano Banana 结束预览正式发布 Google Gemini 2.5 Flash Image
可用于生产环境
- OpenAI 发布 AgentKit 工具包
一站式构建发布优化你的 Agent
- OpenAI 发布 Sora 2 官方提示词指南
佬们学吧
- 谷歌发布 Gemini CLI 扩展生态系统
- Claude Code 现已支持插件功能
编程 CLI 迎来扩展/插件时代
大模型:
- Meta 开源 Code World Model
- 讯飞开源化学大模型与文生音效模型
- Alibaba 发布 Wan2.5-Preview
- Liquid Nanos 系列轻量模型开源
- 快手开源 KAT-Dev-32B 与 KAT-Coder 大模型
- 蚂蚁开源 Ring v2 系列模型
- 腾讯混元开源 Hunyuan3D-Omni 和 Hunyuan3D-Part 3D 生成模型
- Stability AI 发布 SD3.5-Flash
- 腾讯混元开源 HunyuanImage 3.0 模型
- DeepSeek 开源 DeepSeek-V3.2-Exp
- Anthropic发布 Claude Sonnet 4.5 模型
- OpenAI 发布 Sora 2 视频模型
- 智谱发布 GLM-4.6 旗舰模型
- 字节发布豆包 1.6-vision 视觉大模型
- Google 发布 Gemini 2.5 Computer Use 模型
- 腾讯混元开源 Hunyuan-Vision-1.5 视觉语言模型
- Microsoft 发布 UserLM-8b 用户角色模型
2025, 9月24日
Lynx 是字节跳动基于 Wan 2.1 训练而来的高保真视频生成模型,仅需输入单张人像即可生成身份一致的视频。
目前官方仅公开了论文和演示视频,代码和权重将在近期开源,佬们可以关注下这个期货开源项目。
DeepSeek 更新了DeepSeek-V3.1-Terminus 版本!这次更新在保持模型原有强大能力的基础上,针对用户反馈的痛点进行了精准优化。
主要改进包括:
- 语言一致性提升:终于解决了中英文混杂和偶发异常字符的问题
- Agent 能力增强:Code Agent 和 Search Agent 的表现进一步优化。
目前,官方 App、网页端、小程序以及 DeepSeek API 中的模型都已经更新为 DeepSeek-V3.1-Terminus 版本。
不过这种API直接全量覆盖有好有坏,每次更新提示词都得稍微更新一下,不然一些场景就输出不对了,服了。