三花快讯 · 2024, 4月22日

ScreenAI: 谷歌推出 UI 视觉理解模型

谷歌研发的 ScreenAI 模型,通过视觉语言技术,实现对用户界面和信息图表的深度理解和交互,推动人机交互新高度。

谷歌研发的 ScreenAI 模型,通过视觉语言技术,实现对用户界面和信息图表的深度理解和交互,推动人机交互新高度。主要功能特点如下:

  1. 问答:根据屏幕中显示内容回答问题。
  2. 屏幕导航:将自然语言话语转换为可执行动作(例如:点击搜索框)。
  3. 屏幕总结:总结了屏幕中展示的内容。

目前还没有可用代码,仍然是一个研究项目

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。