三花快讯

搜索...

一觉醒来看三花,分分钟 Get 全网 AI 动态

2025, 10月13日

10月13日

Perplexity AI 开发的 Comet 浏览器现已开放,佬们可以去Google Play 商店预注册。

DreamOmni2 是开源多模态图片编辑模型,能够同时处理文本和图像指令,对图像中的具体对象或抽象属性进行精准编辑。

官方展示的效果案例相当不错,支持多种编辑功能:对象替换、灯光渲染、风格转换、姿势模仿、表情模仿、发型替换、艺术字体、艺术贴图以及背景替换。此外还支持 3 参考图、4 参考图模式。

佬们可以在线体验看看效果如何~

OpenAI 的 Sora 视频生成模型官方 Android 应用,现已在Google Play 商店上架并开放预注册。

目前仅面向美国和加拿大地区用户开,由于地区限制,佬们应该和我一样看不到预注册按钮。

2025, 10月11日

10月11日

RND1(Radical Numerics Diffusion)是官方宣称规模最大、能力最强的实验性开源扩散语言模型。它通过一种名为'简单持续预训练'(Simple Continual Pretraining)的方法,基于预训练自回归模型 Qwen3-30B-A3B 转换而来。

最有趣的是,他们的目标居然是构建一个用于递归自我改进(RSI)的引擎——让 AI 能够设计下一代 AI,这波操作可以说是相当有野心了!

KAT-Dev-72B-Exp 是快手最新发布的编程专用大语言模型。该模型在 SWE-Bench Verified 基准测试中表现优异,达到了 74.6% 的准确率。

佬们可以按照其 API 平台 Streamlake 的官方文档 将其用于 Claude Code,目前完全免费使用,不嫖白不嫖!

GAGA-1 模型专为虚拟形象视频生成设计,现已开放免费试用。

官方宣称达到好莱坞级别画质,从演示效果来看确实还可以,画面比开源生态的 wan2.2 要清晰流畅一些。

阿里官方推出的 Qwen3-VL Cookbooks 教程合集,涵盖了从基础到进阶的多种 AI 应用场景:包括计算机操作智能助手、多模态编程、全场景识别、文档解析、精准目标定位、通用 OCR、关键信息提取、3D 定位、长文档理解、空间推理、移动端智能助手和视频理解等。

每个场景都配有详细的代码示例,有做类似需求的佬们可以看看。

2025, 10月10日

10月10日

狠狠的放了一个大长假,今天古法阅读人力看了一遍最近发生的事情和大模型相关发布,挑出了值得关注的,佬们感兴趣可以一一查看。

值得关注

大模型:

2025, 9月24日

9月24日

Lynx 是字节跳动基于 Wan 2.1 训练而来的高保真视频生成模型,仅需输入单张人像即可生成身份一致的视频。

目前官方仅公开了论文和演示视频,代码和权重将在近期开源,佬们可以关注下这个期货开源项目。

DeepSeek 更新了DeepSeek-V3.1-Terminus 版本!这次更新在保持模型原有强大能力的基础上,针对用户反馈的痛点进行了精准优化。

主要改进包括:

  • 语言一致性提升:终于解决了中英文混杂和偶发异常字符的问题
  • Agent 能力增强:Code Agent 和 Search Agent 的表现进一步优化。

目前,官方 App、网页端、小程序以及 DeepSeek API 中的模型都已经更新为 DeepSeek-V3.1-Terminus 版本。

不过这种API直接全量覆盖有好有坏,每次更新提示词都得稍微更新一下,不然一些场景就输出不对了,服了。