三花快讯 · 2024, 4月13日
OSWorld:AI 电脑助手能力测试平台
OSWorld 是一个全新的测试平台,专门用来检验人工智能助手在真实电脑操作环境中完成任务的能力。
OSWorld 是一个全新的测试平台,专门用来检验人工智能助手在真实电脑操作环境中完成任务的能力。这个平台模拟了我们日常使用电脑的各种场景,比如上网浏览、编辑文档、管理文件等,并且覆盖了不同的操作系统,如 Ubuntu、Windows 和 macOS。研究人员通过这个平台设计了 369 个真实世界的电脑任务,来测试 AI 助手的表现。结果发现,虽然人类能够完成超过 70%的任务,但最先进的 AI 模型也只能完成 12%的任务,显示出 AI 在理解和操作图形界面方面还有很大的提升空间。
商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。
本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。