关于数据规模对计算机控制代理的影响

Jun, 2024

关于数据规模对计算机控制代理的影响

On the Effects of Data Scale on Computer Control Agents

Wei Li, William Bishop, Alice Li, Chris Rawles, Folawiyo Campbell-Ajala...

TL;DR研究使用 LLMs 对自主代理进行优化的方法，通过收集更多的数据，可以在域内获得较好的性能，但对于域外的高层任务来说，仅仅收集更多的数据可能不足以获得稳健的性能。

Abstract

autonomous agents that control computer interfaces to accomplish human tasks are emerging. Leveraging llms to power such agents has been of special interest, but unless fine-tuned on human-collected task demonstr

autonomous agents llms fine-tuning computer control agents androidcontrol dataset

发现论文，激发创造

基于数据驱动的计算机控制学习方法

该研究使用强化学习和行为先验相结合的方法，以自然语言指定目标，实现了最新的并具有人类水平的表现，并证明了在训练机器使用计算机时，统一的人机界面是非常有用的。

Feb, 2022

Dial-insight：用高质量领域专用数据进行精细调整，防止能力崩溃的大型语言模型

我们提出了一个双阶段方法来构建高质量数据的生产提示，通过该方法可以增强一般大型语言模型的特定领域能力，而不损害其总体泛化能力。

Mar, 2024

Android 在野外：用于 Android 设备控制的大规模数据集

用于设备控制研究的数据集 Android in the Wild (AITW) 包含有关设备交互的人类演示、自然语言指令以及需求语义理解的多步骤任务，涵盖多个 Android 版本和设备类型，挑战用户界面操作推断和设备控制系统的鲁棒性分析。

Jul, 2023

AndroidWorld: 一个用于自主智能体动态基准测试的环境

自主代理、AndroidWorld、奖励信号、编程任务工作流、计算机控制代理

May, 2024

使用形式方法反馈对语言模型进行微调

使用自然语言任务描述，通过自动合成基于自动机的控制器，并通过与独立提供的规范进行验证，将预训练语言模型完全自动调优以适应自主系统的应用，从而在减少成本的同时弥补了通用知识和特定领域要求之间的差距，其在自主驾驶等多个任务中显示出有效性，使控制器所满足规范的百分比从 60% 提高到 90%。

Oct, 2023

通过任务蒸馏进行领域适应

使用图像识别数据集作为源域和目标域之间的桥梁，通过任务蒸馏框架，在不同仿真器之间成功地传输导航策略，并在传统领域适应基准上展现出有前途的结果。

Aug, 2020

复杂 Android 环境下大型语言模型代理的漏洞分析

大型语言模型 (LLM) 在特定领域的软件（如浏览器和游戏）中赋予智能代理执行复杂任务的能力。然而，应用于操作系统等通用软件系统时，LLM 代理面临三个主要挑战：广泛且动态的操作空间，跨应用程序的合作需求以及符合用户约束条件的最优解。本研究设计了环境和基准测试工具 AndroidArena，通过可扩展的、半自动化的方法构建了该基准。研究结果发现，即使是最先进的 LLM 代理在跨应用程序情景和遵守特定约束方面也存在困难。此外，通过对反思能力的失败进行实证分析，提出的探索策略将成功率提高了 27%。该工作首次揭示了 LLM 代理的细粒度弱点，并为未来研究提供了方向。AndroidArena 的环境、基准以及评估代码已在链接中公开发布。

Feb, 2024

对大型语言模型在受控生成任务中的评估

大型语言模型在生成任务中的可控性和精细硬性约束方面存在挑战。

Oct, 2023

数字代理的自主评估和优化

使用通用自动评估器能够显著提高网络导航和设备控制代理的性能，并通过精确的推理成本、设计模块性以及准确性之间的权衡实验了多个评估模型；通过微调和推理时指导使用这些评估器来提高现有代理的性能，在 WebArena 受欢迎的基准测试中，不需要任何额外的监督，使性能达到了 29% 的提升，并在具有挑战性的领域转移场景中实现了 75% 的相对改进。

Apr, 2024

家庭机器人学习：提高泛化性能和减少数据集偏差

研究表明，大多数基于数据驱动的机器人任务都是在实验室环境中收集的大规模数据集上进行训练的，该论文提出了在人们的家庭环境中使用低成本机器人手动搬运收集数据的方法，并开发了一种框架来处理数据中的噪音标签。该模型在采集了 28,000 次抓取数据并针对不同环境条件进行物理性能测试后，相较于实验室收集的数据，展现了明显的 43.7% 的改善，该模型还比其他模型表现 10% 更好。

Jul, 2018