Feb, 2024

UFO:面向 Windows OS 交互的用户界面代理

TL;DR我们介绍了一种创新的 UI-Focused 代理 UFO,它可以根据 Windows 操作系统上的应用程序满足用户定制请求,利用 GPT-Vision 的能力。UFO 采用双代理框架,精确观察和分析 Windows 应用程序的图形用户界面(GUI)和控制信息,使代理能够在单个应用程序内部和跨应用程序进行无缝导航和操作,以满足用户请求,即使涵盖多个应用程序。该框架包含一个控制交互模块,无需人工干预即可促进行动接地,实现完全自动化执行。因此,UFO 将繁琐和耗时的过程转化为仅通过自然语言命令即可完成的简单任务。我们在 9 个广受欢迎的 Windows 应用程序上对 UFO 进行了测试,涵盖了用户日常使用的各种场景。通过定量指标和实际案例研究得出的结果,突显出 UFO 在满足用户请求方面的卓越效果。据我们所知,UFO 是第一个专门为 Windows 操作系统环境中的任务完成而量身定制的 UI 代理。UFO 的开源代码可在此 https URL 上获取。