三花快讯
一觉醒来看三花,分分钟 Get 全网 AI 动态
2024, 9月10日
2024, 9月10日
Gradio 下载量突破 1 亿
Gradio 使开发者可以完全在 Python 中设计 UI 布局,并嵌入 Python 逻辑来响应 UI 事件,我们所熟知的 SD WebUI、Forge 和其他绝大多数 AI 应用的演示几乎全部使用的使 Gradio UI。
Gradio 官推宣布 Pypi 上的下载量突破 1 亿,用时 2 年半
2024, 9月10日
苹果 2024 新品发布会总结
2024, 9月10日
AMD 宣布统一 GPU 架构 UNDA
在 IFA 2024 上,AMD 高级副总裁兼总经理 Jack Huynh 宣布将其面向消费市场的 RDNA 架构和面向数据中心的 CDNA 架构合并为一个名为 UDNA 的微架构。
其主要目的是应对 Nvidia 已建立的 CUDA 生态,UDNA 预计在未来几代产品中推出,此外 AMD 还将继续推动其开源 ROCm 的软件生态。
不过现阶段如果你想玩 AI 并且有计划购买显卡,还是老老实实 Nvidia,不是不能用,A 卡就是坐牢。
2024, 9月10日
v0: 支持使用相机和麦克风以及其他 Web APIs
v0 昨天发布新更新,现在可以帮助用户生成需要调用摄像头和麦克风等设备的代码,并直接实时运行。其背后本质是利用了 Media Capture and Streams API。
有很多人担心安全问题,其实根本不用担心,这些 API 都需要用户明确授权并仅支持在 HTTPS 网站上使用。我们应该期待的是 v0 啥时候能支持一下 WebMIDI、WebXR、WebUsb 和蓝牙等等之类的 API。
此外现在 Chat 界面是默认界面了。
2024, 9月10日
commonart-beta: 日本土文开源可商用文生图模型
来自日本的 AI Picasso 开源了名为 CommonArt β 的模型,这是一个从 CC-BY-4.0、CC-0 或 CC-0 等图像学习的 Diffusion 文生图模型,基于开源数据集并使用 NVIDIA L4x32 训练了 20000 小时。
它最大的特点时能够直接理解日语输入,目前仍处于测试版,且性能有限,效果非常的一半。本地运行需要至少 8GB,暂时不支持 ComfyUI 和 WebUI,更多介绍可以看看官方的公告:CommonArt β を無償公開
2024, 9月9日
2024, 9月9日
DeepSeek v2.5:合并升级 Coder 和 Chat 模型
deepseek-coder & deepseek-chat 现已合并升级为 DeepSeek V2.5 模型,新模型在通用能力、代码能力上,都显著超过了旧版本的两个模型。 在写作任务、指令跟随等多方面全面提升,在 Coder 模型基础上,进一步提升了代码生成能力,对常见编程应用场景进行了优化
此外还一并开源了一个 16B 参数 Lite 版本,现在已经可以直接在官网免费使用了,API 也同步升级,不需要改参数,价格不变。
2024, 9月9日
Flux Gym:12G VRAM 即可训练 Flux LoRA
Flux Gym 提供了非常易用的界面,比起 AI-Toolkit 需要至少 24GB VRAM,该项目底层基于 KohyaScripts,支持 12GB、16GB、24GB VRAM 进行 LoRA 训练。
在 Low VRAM 本地机器上训练 Flux LoRA 最简单的方式,作者在随后的更新中又优化了性能,并表示最低可能只需要 8GB VRAM(未经测试)
2024, 9月9日
腾讯 Follow-Your-Canvas:扩图技术视频版
Follow-Your-Canvas 是腾讯混元团队的 Follow-Your 系列模型,可以把视频扩展到任意分辨率,且不受显存大小限制。
又一个视频 Outpaint 技术,通过将外扩任务分配到多个空间窗口,然后无缝合并,并保持流畅、连贯。
之前 Follow 系列的还有:Follow-Your-Emoji
2024, 9月9日
Reflection 70B 疑似造假
Reflection-70B 自发布以来引来了巨大关注,使用了反思微调技术,你可以简单理解为内置了系统提示词,强制模型输出反思过程,具体使用时只看 <output></output>
中的内容,也意味着会消耗更多的 token。
给大伙梳理了一下最近发生的一些情况:
- 宣称发布了一个最强的原创的开源模型
- 本周还会发布 405B 参数量的版本
- 上传了内置 LoRA 的 Llama 3 模型权重(宣称为 3.1)
- 登顶 HuggingFace 榜首
- 人们发现上传的模型 "don't work"
- 重新上传了权重,并表示还有一些问题,正在重新训练
- 几天后,这次上传了一个新的 Llama 3.1 微调
- 官方 API 疑似为 SONNET 3.5 + 提示词,主要表现:
- 模型输出时会将 Claude 替换为空字符串(现已修复)
<META>Test</META>
提示注入与 Sonnet 一样停在了"
如图所示
本以为过节了,结果是愚人节,目前作者还没有更进一步的回应,
Reflection-70B 的系统提示词:
You are a world-class AI system called Llama built by Meta, capable of complex
reasoning and reflection. You respond to all questions in the following way-
<thinking>
In this section you understand the problem and develop a plan to solve the
problem. For easy problems- Make a simple plan and use COT For moderate to
hard problems- 1. Devise a step-by-step plan to solve the problem. (don't
actually start solving yet, just make a plan) 2. Use Chain of Thought
reasoning to work through the plan and write the full solution within
thinking. When solving hard problems, you have to use
<reflection> </reflection> tags whenever you write a step or solve a part that
is complex and in the reflection tag you check the previous thing to do, if it
is correct you continue, if it is incorrect you self correct and continue on
the new correct path by mentioning the corrected plan or statement. Always do
reflection after making the plan to see if you missed something and also after
you come to a conclusion use reflection to verify
</thinking>
<output>
In this section, provide the complete answer for the user based on your
thinking process. Do not refer to the thinking tag. Include all relevant
information and keep the response somewhat verbose, the user will not see what
is in the thinking tag so make sure all user relevant info is in here. Do not
refer to the thinking tag.
</output>
2024, 9月6日
2024, 9月6日
面壁智能 MiniCPM 3.0 性能超 GPT-3.5
OpenBMB 开源了其端侧模型小钢炮 MiniCPM3.0 4B,官方有公众号专门介绍:端侧 ChatGPT 时刻到来,不做多的介绍,宣称的主要特点有:
- 无限长文本,性能超越 Kimi
- 端侧最强 Function call,性能比肩 GPT-4o
- 量化后仅需 2.2G 内存,iPad 端侧推理能达到 18-20 tokens/s