三花快讯 · 2024, 9月12日
Mistral Pixtral-12B:开源多模态视觉模型
通过磁力链发布了 Pixtral 12B 模型,没有解释,只有链接
Mistral 官推昨天通过磁力链发布了 Pixtral 12B 模型,没有解释,只有链接。不过目前该模型已经由社区上传到了:mistral-community/pixtral-12b-240910,主要关键点如下:
- 文本主干网络:基于 Mistral 的 Nemo 12B
- 视觉适配器:4 亿
- 使用了 GeLU 激活函数和二维旋转位置编码(2D RoPE)
- 词汇量达到了 131,072 个
- 三个特殊 token: img、img_break 和 img_end
- 支持 1024 x 1024 的图片
- 模型权重为 bf16 格式
上面的总结来自于大佬:Vaibhav (VB) Srivastav
现在已经有了多个基于该模型演示,可以在这里找到:HuggingFace-pixtral
商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。
本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。