ScreenAI: 谷歌推出 UI 视觉理解模型 | 三花 AI | 免费 AI 应用 | 1000+ AI 导航合集

谷歌研发的 ScreenAI 模型，通过视觉语言技术，实现对用户界面和信息图表的深度理解和交互，推动人机交互新高度。主要功能特点如下：

问答：根据屏幕中显示内容回答问题。
屏幕导航：将自然语言话语转换为可执行动作（例如：点击搜索框）。
屏幕总结：总结了屏幕中展示的内容。

目前还没有可用代码，仍然是一个研究项目

博客：https://research.google/blog/screenai-a-visual-language-model-for-ui-and-visually-situated-language-understanding/
论文：https://arxiv.org/abs/2402.04615

商业转载请联系三花微信公众号获得授权，非商业转载请注明本文出处及文章链接，您可以自由地在任何媒体以任何形式复制和分发作品，也可以修改和创作，但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际进行许可。

EndlessDreams: 实时语音控制高清视频生成

EndlessDreams项目实现了一个创新功能：用户可以用自己的声音实时指挥生成1280x1024的高清视频。

VBench: 视频生成模型的全面评估工具

VBench 为视频生成模型提供了一个包含 16 个评估维度的全面基准测试套件，包括运动平滑性和时间闪烁等