三花快讯 · 2025, 4月21日
字节开源 UI-TARS-1.5:多模态 GUI 自动化智能体
基准测试表现超越 Claude 3.7
字节跳动开源的 UI-TARS-1.5 是一款基于视觉语言模型的多模态 AI 智能体,专注于 GUI 自动化领域。
能够操作桌面应用、浏览器,甚至实现游戏自动化。
从官方演示来看,效果还是相当不错的。在 GUI 代理的各种基准测试任务上的表现超越了 OpenAI Operator 和 Claude 3.7。
商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。
本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。