Meta Spirit LM：自由混合文本和语音的多模态模型 | 三花 AI | 免费 AI 应用 | 1000+ AI 导航合集

Spirit LM 是 Meta 的首个能够自由混合文本和语音的多模态语言模型。它不仅理解语言的含义，还能捕捉并再现说话的音调、情感和风格。Spirit LM 支持文本和语音的输入输出，分为 Base 和 Expressive 两个版本。不过开源的模型 7B 参数量，推理能力一般。

商业转载请联系三花微信公众号获得授权，非商业转载请注明本文出处及文章链接，您可以自由地在任何媒体以任何形式复制和分发作品，也可以修改和创作，但是分发衍生作品时必须采用相同的许可协议。

微软 BitNet：CPU 加速运行 LLM 的新突破

ARM CPU 上实现了 1.37 倍到 5.07 倍的加速

DeepSeek 推出开源多模态模型 Janus

可商用的多模态理解和生成模型