三花快讯
一觉醒来看三花,分分钟 Get 全网 AI 动态
2025, 1月14日
micro_diffusion 是一个开源方法,旨在通过充分利用每一刀从零开始训练大规模扩散模型。
任何人只需使用 8 个 H100 GPU,在短短 2.5 天内,就能以 1890 美元的超低成本,用 3700 万张公开可用的真实和合成图像,训练出一个 11.6 亿参数的稀疏 Transformer。
这比 Stable Diffusion 的训练成本低 118 倍!不过,从论文的基准测试来看,模型生成的图片质量仅略优于 SD1.5,放到现在可能有点不够看。
Mistral 最新推出的编程模型Codestral 25.01 现已登陆 Continue.dev 平台。开发者可以通过 VSCode 和 JetBrains 插件试用该模型。
Codestral 25.01 在同参数量模型中表现突出,目前在 LMsys Copilot 竞技场中稳居榜首。
2025, 1月13日
FaceLift 是 Adobe 最新发布的一项技术,仅需一张人脸照片,就能快速生成高保真的 3D 头部模型。
该技术首先利用扩散模型从单张脸部照片生成侧面和背面的视图,然后通过 GS-LRM 重建器生成 3D 高斯样条表示,实现全头新视角的合成。
此外,FaceLift 还能处理视频输入,进行 4D 合成,并与 2D 动画技术结合,实现 3D 面部动画。
从官网的一些交互式案例来看,效果还不错,不过不能放大看,恐怖谷效应拉满了。目前这项技术还没有开源,关注我为你持续跟进。
Grok iOS App 现已上线美区 App Store,支持生成图像和对话。用户需要使用 X 账号登录,以实时访问 X 和 Web 数据。
系统版本要求较高,需更新至 iOS 17 才能安装,如果你在用巨魔啥的就无缘了。安卓版本即将推出。
Qwen Chat 是阿里通义团队近日上线的一款基于开源的 Open WebUI 的 WebUI,支持 Qwen 全系列模型。
模型包括 Qwen2.5-Plus 对话模型、QwQ 和 QVQ 等推理模型,以及 Qwen2.5-Coder-32B-Instruct 编程模型。
Qwen Chat 支持同时对比多个模型,还即将推出网络搜索、图像生成和语音模式,值得期待。
Kling APP 现已正式上架美区 App Store,安卓版本也即将上线。
简单体验了一下,和 Web 版本差不多,支持 kolors 1.5 生成图片和 kling 1.6 生成图生视频、文生视频。
2025, 1月10日
2025, 1月10日
Dify v1.0.0-beta 发布:全新 Marketplace 和插件系统上线
Dify Marketplace 发布了 v1.0.0-beta 版本,带来了全新的插件系统。现在,模型和工具等都成为了插件系统的一部分,用户可以更方便地扩展和定制功能。好久没关注 Dify 了,终于快要正式版了!
2025, 1月9日
2025, 1月9日
Gazelle 多人注视检测技术在线版本发布,精准检测目光方向
Gazelle 是一个开源的多人注视检测技术,能够精准地检测人们的目光方向和注视对象。
现在,Gazelle 的在线版本已经发布,社区提供了两个不同的演示:gaze-demo 和 Gaze-LLE-demo。