三花快讯 · 2024, 4月10日

Ferret-UI:苹果开发出能“看懂”手机屏幕上并能执行任务的多模态模型

它将移动UI的视觉元素和语言元素结合起来,不仅能“看懂”屏幕上的内容,还能理解用户的指令和问题,进而执行任务或提供信息。

它将移动UI的视觉元素和语言元素结合起来,不仅能“看懂”屏幕上的内容,还能理解用户的指令和问题,进而执行任务或提供信息。

Ferret-UI的能力不止于看和识别,它还能进行推理。

例如,它可以通过分析屏幕上的元素来推测一个应用的功能,或者理解和参与与屏幕内容相关的对话。

Ferret-UI在所有基础UI任务上均超过了GPT-4V和大多数其他开源UI MLLM

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。

三花 AI 导航 Logo