该研究使用强化学习和行为先验相结合的方法,以自然语言指定目标,实现了最新的并具有人类水平的表现,并证明了在训练机器使用计算机时,统一的人机界面是非常有用的。
Feb, 2022
我们提出了一个双阶段方法来构建高质量数据的生产提示,通过该方法可以增强一般大型语言模型的特定领域能力,而不损害其总体泛化能力。
Mar, 2024
用于设备控制研究的数据集 Android in the Wild (AITW) 包含有关设备交互的人类演示、自然语言指令以及需求语义理解的多步骤任务,涵盖多个 Android 版本和设备类型,挑战用户界面操作推断和设备控制系统的鲁棒性分析。
Jul, 2023
自主代理、AndroidWorld、奖励信号、编程任务工作流、计算机控制代理
May, 2024
使用自然语言任务描述,通过自动合成基于自动机的控制器,并通过与独立提供的规范进行验证,将预训练语言模型完全自动调优以适应自主系统的应用,从而在减少成本的同时弥补了通用知识和特定领域要求之间的差距,其在自主驾驶等多个任务中显示出有效性,使控制器所满足规范的百分比从 60% 提高到 90%。
Oct, 2023
使用图像识别数据集作为源域和目标域之间的桥梁,通过任务蒸馏框架,在不同仿真器之间成功地传输导航策略,并在传统领域适应基准上展现出有前途的结果。
Aug, 2020
大型语言模型 (LLM) 在特定领域的软件(如浏览器和游戏)中赋予智能代理执行复杂任务的能力。然而,应用于操作系统等通用软件系统时,LLM 代理面临三个主要挑战:广泛且动态的操作空间,跨应用程序的合作需求以及符合用户约束条件的最优解。本研究设计了环境和基准测试工具 AndroidArena,通过可扩展的、半自动化的方法构建了该基准。研究结果发现,即使是最先进的 LLM 代理在跨应用程序情景和遵守特定约束方面也存在困难。此外,通过对反思能力的失败进行实证分析,提出的探索策略将成功率提高了 27%。该工作首次揭示了 LLM 代理的细粒度弱点,并为未来研究提供了方向。AndroidArena 的环境、基准以及评估代码已在链接中公开发布。
Feb, 2024
大型语言模型在生成任务中的可控性和精细硬性约束方面存在挑战。
使用通用自动评估器能够显著提高网络导航和设备控制代理的性能,并通过精确的推理成本、设计模块性以及准确性之间的权衡实验了多个评估模型;通过微调和推理时指导使用这些评估器来提高现有代理的性能,在 WebArena 受欢迎的基准测试中,不需要任何额外的监督,使性能达到了 29% 的提升,并在具有挑战性的领域转移场景中实现了 75% 的相对改进。
Apr, 2024
研究表明,大多数基于数据驱动的机器人任务都是在实验室环境中收集的大规模数据集上进行训练的,该论文提出了在人们的家庭环境中使用低成本机器人手动搬运收集数据的方法,并开发了一种框架来处理数据中的噪音标签。该模型在采集了 28,000 次抓取数据并针对不同环境条件进行物理性能测试后,相较于实验室收集的数据,展现了明显的 43.7% 的改善,该模型还比其他模型表现 10% 更好。
Jul, 2018