三花快讯 · 2024, 10月25日
微软推出 OmniParser:将 UI 截图转换为结构化数据
基于 YOLOv8 微调,支持任意设备截图提取
OmniParser 是一款由微软推出的通用屏幕解析工具,它能够将 UI 屏幕截图转换为结构化数据,从而显著提升基于 LLM 的 UI Agent 的性能。这个模型基于 YOLOv8 微调而来,支持提取任意手机、PC、APP 的截图,功能非常强大。有了这个模型,马上就会有一堆 Computer use 的开源替代了。
商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。
本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。