AndroidWorld: 一个用于自主智能体动态基准测试的环境
通过引入 OSWorld,我们创建了一个包含 369 个计算机任务的基准,以评估多模态代理在开放领域中执行任意应用程序所涉及的计算机任务的能力。在 OSWorld 上进行的全面评估为开发多模态通用代理提供了宝贵的洞见,这是以前的基准测试无法实现的。
Apr, 2024
大型语言模型 (LLM) 在特定领域的软件(如浏览器和游戏)中赋予智能代理执行复杂任务的能力。然而,应用于操作系统等通用软件系统时,LLM 代理面临三个主要挑战:广泛且动态的操作空间,跨应用程序的合作需求以及符合用户约束条件的最优解。本研究设计了环境和基准测试工具 AndroidArena,通过可扩展的、半自动化的方法构建了该基准。研究结果发现,即使是最先进的 LLM 代理在跨应用程序情景和遵守特定约束方面也存在困难。此外,通过对反思能力的失败进行实证分析,提出的探索策略将成功率提高了 27%。该工作首次揭示了 LLM 代理的细粒度弱点,并为未来研究提供了方向。AndroidArena 的环境、基准以及评估代码已在链接中公开发布。
Feb, 2024
建立一个高度逼真和可重现的环境,专注于在网站上执行任务的智能代理,提供一组多样化、长期规划、模拟人类在互联网上例行执行的任务的基准任务以评估任务完成的功能正确性。
Jul, 2023
用于设备控制研究的数据集 Android in the Wild (AITW) 包含有关设备交互的人类演示、自然语言指令以及需求语义理解的多步骤任务,涵盖多个 Android 版本和设备类型,挑战用户界面操作推断和设备控制系统的鲁棒性分析。
Jul, 2023
通过引入 B-MoCA 基准测试,本研究针对移动设备控制代理开发自主代理,提高用户交互的效率和可访问性。在 Android 操作系统上创建了一个真实的基准测试,定义了 60 项常见日常任务,并通过随机化功能来评估代理的泛化性能。尽管代理们在执行简单任务方面展示出熟练性,但在复杂任务上的低效性凸显了未来研究改进其效果的重要机遇。
Apr, 2024
通过提出 MobileAgentBench 这一高效且用户友好的基准测试工具,对现有移动代理进行全面和系统性的性能比较,以解决应用程序状态无穷和可行操作序列定义模糊的挑战。
Jun, 2024
DroidAgent 是一个用于自动化 GUI 测试的智能代理,它基于大规模语言模型和支持机制以实现对 Android 应用的语义驱动自动测试,在实验评估中展现了较高水平的自主性和与应用的深度交互,根据测试结果,DroidAgent 相较于现有的 GUI 测试技术具有更高的活动覆盖率。
Nov, 2023
开发和评估 AI 代理的端到端科学推理能力具有挑战性,本文介绍了 DISCOVERYWORLD,这是第一个用于开发和评估代理执行完整的新颖科学发现循环能力的虚拟环境,通过包含不同挑战任务,覆盖放射性同位素约会、火箭科学和蛋白质组学等多个主题,鼓励培养一般的发现技能而非特定任务的解决方案,提供了自动度量指标来评估性能,发现在 DISCOVERYWORLD 任务中,之前在其他环境中表现良好的强基线代理却遇到了困难,这表明 DISCOVERYWORLD 捕捉到了部分新颖的发现挑战,并可能加速代理的科学发现能力的发展和评估。
Jun, 2024
AutoDroid 是一种能够在 Android 应用上自动执行任意任务且无需人工努力的移动任务自动化系统,通过自动化的动态分析将 LLMs 的常识知识与应用程序的领域特定知识相结合,实现了功能感知的 UI 表示方法、基于探索的内存注入技术以及多粒度查询优化模块等主要组件,表现出了优于 GPT-4 的效果。
Aug, 2023
研究使用 LLMs 对自主代理进行优化的方法,通过收集更多的数据,可以在域内获得较好的性能,但对于域外的高层任务来说,仅仅收集更多的数据可能不足以获得稳健的性能。
Jun, 2024