三花快讯 · 2024, 8月13日
FalconMamba: 性能排名第一的开源 SSLM
不依赖传统的注意力机制,而是采用了名为 Mamba 的架构
Falcon Mamba 7B 是目前全球性能排名第一的开源状态空间语言模型(SSLM),它不依赖传统的注意力机制,而是采用了名为 Mamba 的架构,在处理时间序列数据、捕捉动态变化、或者长序列时(金融预测、健康监控、气象预测、运动预测、处理法律或技术类长文本等场景)更加高效,在 Hugging Face 新引入的基准测试中,性能超越了基于 Transformer 架构的 Llama 3.1 8B 和 Mistral 7B。
可以在 tiiuae/falcon-mamba-playground 使用,多语言支持不太好。HF 上还有一篇名为《Welcome FalconMamba: The first strong attention-free 7B model》的文章专门介绍了一下,可以看看。
商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。
本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。