ScreenAI: 谷歌推出 UI 视觉理解模型
谷歌研发的 ScreenAI 模型,通过视觉语言技术,实现对用户界面和信息图表的深度理解和交互,推动人机交互新高度。
谷歌研发的 ScreenAI 模型,通过视觉语言技术,实现对用户界面和信息图表的深度理解和交互,推动人机交互新高度。主要功能特点如下:
- 问答:根据屏幕中显示内容回答问题。
- 屏幕导航:将自然语言话语转换为可执行动作(例如:点击搜索框)。
- 屏幕总结:总结了屏幕中展示的内容。
目前还没有可用代码,仍然是一个研究项目
商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。
本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。