三花快讯 · 2025, 2月28日
微软开源多模态模型 Phi-4-Multimodal 和轻量化 Phi-4-Mini
Phi-4-Multimodal 视觉基准相当于 GPT-4o
Phi-4 是微软开源的最新小语言模型,支持文本、视觉和语音/音频处理,并采用 MIT 许可证发布。
Phi-4-Multimodal 在多模态任务中全面领先,视觉基准相当于 GPT-4o,语音识别超越 WhisperV3,数学、推理和编码媲美更大规模的 Qwen2.5-7B,推理任务上相当于 DeepSeek-Rl-Distill-Qwen-7B。
而 Phi-4-Mini 则在轻量化模型中展现了强大的数学和编码能力,由于模型较小,定制和微调更容易且成本更低。
商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。
本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。