三花快讯 · 2025, 2月17日

微软推出 OmniParser V2.0:将大语言模型转化为 GUI 交互智能体

显著提升检测小元素准确性和推理速度

微软的 OmniParser 近日发布了 V2 更新,这一更新旨在将任何大语言模型(LLM)转化为能够理解和交互图形用户界面(GUI)的智能体。

前一代相比,OmniParser V2 在检测更小可交互元素的准确性和推理速度上有了显著提升。目前,代码和模型均已开源。

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。