三花快讯

搜索...

一觉醒来看三花,分分钟 Get 全网 AI 动态

2025, 5月12日

5月12日

字节开源的 DreamO 是一个强大的通用图片定制框架,具备三大核心能力:类似 IP-Adapter 的智能适配功能、保持角色特征一致性的 ID 锁定技术,以及画风迁移技术。

官方提供了在线演示,佬们可以试试水。

ChatGPT 的深度搜索现在支持联动 Github 了,启用并输入仓库名称后,Agent 将会自动阅读并搜索源代码和 PR,并返回对应的引用报告。

ZenCtrl 是基于 OminiControl 开发的进阶版图像生成控制神器,不仅能实现虚拟试穿、智能背景融合、高清图像修复等实用功能,更在原有基础上大幅提升了控制精度和主体一致性。

说真的,OminiControl 的效果已经够可以了,但 ZenCtrl 这次把控制能力做的更好,佬们不妨去在线演示亲自体验下

字节开源了 Seed-Coder 8B,一个专用于编程的模型,官方基准测试显示,其能力超过同规模的其他模型,包括 LLaMA 3.1 8B、DeepSeek Coder 6.7B等。

HunyuanCustom 是腾讯推出的一个多模态驱动的定制化视频生成框架,基于 HunyuanVideo 构建,支持保持角色一致性,支持多模态输入,支持编辑视频,例如插入或替换人物。

目前代码和模型已经在 GitHub 开源,这里还有个非官方在线演示,佬们可以自己上手试试效果~

阿里的 QwenChat 现在上线了 Web Dev 功能,类似 Claude 的 Artifacts,目前专注网页生成。

Qwen3 的编程能力确实不错,佬们可以自己试试

2025, 5月8日

5月8日

HeyGen 发布了 Avatar IV 数字人模型,只需一张照片、一段脚本和语音,用户即可快速生成高度逼真的数字人视频。新模型采用“扩散式音频驱动表情引擎”,能根据语音的节奏、语调和情感,合成自然的面部表情和微动作,支持侧脸图像、多角度变化及唱歌节奏同步。

除了精准的唇部同步外,Avatar IV 还能'理解'语义与情感,自动生成暂停、点头等细腻动作。目前支持最长 30 秒的音频或文本脚本输入。

完整更新细节可以看官方推文

所有人每个月都能免费生成 3 个视频(免费用户最长10秒),官方还有一个简单的教程也可以看看。

FlexiAct是腾讯 ARC 实验室推出的视频动作克隆技术。

该技术能够精准地将参考视频中的动作迁移到目标角色上,实现跨类别动作克隆,包括真人、动漫角色和动物之间的动作迁移。

演示效果不过,目前数据集和代码均已开源。

Insert Anything 是一个开源的图片编辑框架,能够将参考图中的人物、物体和服装等元素无缝插入到目标场景中。

效果非常不错,佬们可以在 HF 的在线演示亲自试试。

2025, 5月7日

5月7日

LTXStudio 最新发布了 LTX-Video 13B 开源视频生成模型:

  • 130亿参数规模
  • 采用多尺度渲染技术,呈现更精细的细节
  • 显著提升运动轨迹与场景理解能力
  • 可在本地GPU运行,比同类产品快 30 倍
  • 支持关键帧、镜头/角色运动控制及多镜头序列生成

完整更新介绍可以看官方推文