自主大型语言模型代理实现驱动意图的移动 GUI 测试
使用大型语言模型的图形用户界面(GUI)自动化在处理复杂任务方面有很大潜力。本论文介绍了一个新的基准测试框架 AssistGUI,评估模型是否能够响应用户请求的任务,在 Windows 平台上操纵鼠标和键盘。实验结果显示,我们的 GUI Parser 和 Reasoning 机制在性能上优于现有方法,但在基准测试中,最佳模型的成功率仅为 46%。通过对当前方法的限制进行彻底分析,为未来在该领域取得突破奠定基础。
Dec, 2023
AutoDroid 是一种能够在 Android 应用上自动执行任意任务且无需人工努力的移动任务自动化系统,通过自动化的动态分析将 LLMs 的常识知识与应用程序的领域特定知识相结合,实现了功能感知的 UI 表示方法、基于探索的内存注入技术以及多粒度查询优化模块等主要组件,表现出了优于 GPT-4 的效果。
Aug, 2023
该论文介绍了一种名为 DroidBot-GPT 的工具,利用大型语言模型(LLMs)自动化与 Android 移动应用程序的交互。给定所需任务的自然语言描述,DroidBot-GPT 可以自动生成并执行操作,以完成任务。
Apr, 2023
通过提出 MobileAgentBench 这一高效且用户友好的基准测试工具,对现有移动代理进行全面和系统性的性能比较,以解决应用程序状态无穷和可行操作序列定义模糊的挑战。
Jun, 2024
该研究介绍了一种基于大型语言模型的多模态代理框架,旨在操作智能手机应用程序,通过简化的操作空间模拟人类的点击和滑动等交互,避免了系统后端访问的需求,并扩大了其适用性。代理的功能核心是其创新的学习方法,通过自主探索或观察人类示范学习并构建知识库以执行跨不同应用的复杂任务,通过在 10 个不同应用程序中进行 50 个任务的广泛测试,证明了代理在处理各种高级任务上的熟练程度。
Dec, 2023
介绍了从观察到的用户界面轨迹中抽取目标的任务,并提出了一种新的评估指标来评估特定用户界面环境下两个任务描述是否是释义关系。通过与用户界面自动化任务的逆关系,利用 Android-In-The-Wild 和 Mind2Web 数据集进行了实验,与人类和最先进的模型(GPT-4 和 Gemini-1.5 Pro)进行了比较,结果显示 Gemini 的表现优于 GPT 但仍不及人类,表明有很大的改进空间。
Jun, 2024
本研究介绍了 CogAgent,这是一个在 GUI 理解和导航方面专门使用的 180 亿参数的视觉语言模型,通过低分辨率和高分辨率图像编码器,支持 1120*1120 分辨率的输入,能够识别微小的页面元素和文本。CogAgent 在五个文本丰富和四个通用的 VQA 基准测试中达到了最新的技术水平,在 PC 和 Android 的 GUI 导航任务中超过了 LLM 方法,从而推动了技术的发展。
Dec, 2023
大型语言模型 (LLM) 在特定领域的软件(如浏览器和游戏)中赋予智能代理执行复杂任务的能力。然而,应用于操作系统等通用软件系统时,LLM 代理面临三个主要挑战:广泛且动态的操作空间,跨应用程序的合作需求以及符合用户约束条件的最优解。本研究设计了环境和基准测试工具 AndroidArena,通过可扩展的、半自动化的方法构建了该基准。研究结果发现,即使是最先进的 LLM 代理在跨应用程序情景和遵守特定约束方面也存在困难。此外,通过对反思能力的失败进行实证分析,提出的探索策略将成功率提高了 27%。该工作首次揭示了 LLM 代理的细粒度弱点,并为未来研究提供了方向。AndroidArena 的环境、基准以及评估代码已在链接中公开发布。
Feb, 2024
我们提出了一种全面认知的大型语言模型代理,CoCo-Agent,通过全面环境感知和条件化行动预测的两种新方法系统地提高了图形用户界面自动化性能。我们的代理在 AITW 和 META-GUI 基准测试中取得了最新的最佳表现,展示了在现实场景中的巨大潜力。
Feb, 2024