三花快讯

搜索...

一觉醒来看三花,分分钟 Get 全网 AI 动态

2024, 7月8日

7月8日

MInference 是微软推出的一个能实现在单个 A100 GPU 上处理 1M 上下文的 10 倍推理速度提升,同时保持甚至提高其准确性。

MInference 无需对预训练设置或额外微调进行修改,即可直接应用于现有 LLMs,这里有个 HF 的演示

该技术突破了传统模型的限制,能够生成细节丰富、高自然度的 8K+ 分辨率图片。它特别适合生成有多个人物和复杂场景的图像,最关键的是不需要重新训练模型可以节省大量时间和资源,目前还只有论文,可以期待一下。

Artificial Analysis 是吴恩达老师推荐的一个提供各大模型的质量、输出速度、价格对比等多维度分析的网站。

比起 LMSYS Chatbot Arena 或者 HF 上的其他竞技场,它们更注重的输出的质量而这个网站其实更利于我们选择一个合适的大模型 API,强烈安利!

在线使用:https://klingai.kuaishou.com/

  • 文生视频:提供了画质升级,并且可以生成单次 10 秒的视频。
  • 图生视频:画质有所提升,并且支持用户自定义视频的首尾帧。
  • 运镜控制:提供了丰富的镜头控制选项,包括预设的多种大师级镜头模式。

目前「自定义首尾帧」及「运镜控制」功能目前只在 Web 端提供,内测期间全功能都可以免费使用,但是「高表现」生成模式每个账号每日最多可以使用 3 次,而「高性能」模式的生成次数没有限制。

值得注意的是,视频生成的内测需要重新申请与 APP 的内测资格不通用。

快手 Kolors 模型基于数十亿图文对进行训练,支持 256 的上下文 token 数,支持中英双语提示词。

可图厉害的点在于懂中国文化,以及终于能够生成汉字了!虽然需要抽卡,但是比此前的模型要好很多,可以在这里试用

目前模型已经完全可用了,LoRA、ControlNet (Pose, Canny, Depth)、IP-Adapter 还在路上,此外官方也计划提供 ComfyUI 插件,可以期待一波!

太不容易了,之前 SD3 面临了严重的财务危机,不过后来又拿到了新投资(新 CEO),同样看好开源,于是 SD3 更新了许可证,现在可以被免费商用了,只要收入小于 100 万美元就 ok!

最关键的是,SAI 在此公告中表示,在接下来的几周内,SD3 将进行重大更新(much improved),并推出新版本!

如果你有在用 Kimi Copilot - 网页总结助手,或许你可以试试 Kimi 官方出的浏览器插件,除了支持网页总结外,还支持了划线使用,侧边栏对话功能。

FunAudioLLM 是阿里通义团队发布的用于增强人和 LLMS 语音交流的框架,包含了:

  • SenseVoice:支持 50 多种语音和情感识别的语音识别
  • CosyVoice:支持多语言、跨语言、语音克隆,自然情感语音生成

都在 modelscope 上有免费试用,FunAudioLLM 能够轻松与 LLMS 集成,能实现语音翻译、情感语音聊天、交互式播客和有声读物等。

整体效果比起之前字节的 Seed-TTS 略差,不过强在开源了,并且现在你就可以直接用了!

ControlNeXt 是一种新的效率更高的 ControlNet 类实现,可训练参数减少 90%,速度更快,支持配合 LoRA 使用。

视频演示是其 SVD 模型,实现了类似阿里 AnimateAnyone 的效果。

MOTIA 是今年三月的一个能够完成视频扩图的论文 的官方实现,该技术能够对视频完成扩图,适合用来做点短视频,不过目前来看对 GPU 要求还是比较高的。

三花 AI 导航 Logo