元素排序对语言模型代理性能的影响

Sep, 2024

元素排序对语言模型代理性能的影响

The Impact of Element Ordering on LM Agent Performance

Wayne Chi, Ameet Talwalkar, Chris Donahue

TL;DR本研究解决了元素特性对语言模型代理在图形环境中性能的影响尚不明确的问题。通过随机化元素的展示顺序，我们发现这一因素对代理性能有显著影响，类似于完全移除可见文本。我们的研究表明，随着任务复杂度的增加，元素排序的重要性随之提升，且采用降维方法为仅以像素表示的环境提供了一种有效的排序方案。

Abstract

There has been a surge of interest in Language Model Agents that can navigate virtual environments such as the web or desktop. To navigate such environments, agents benefit from information on the various elements (e.g., buttons, text, or images) present. It remains unclear which eleme

发现论文，激发创造

语言模型代理在 Web 自动化中受到构成性泛化的影响

LMA在基本任务上的表现优于人类和强化学习代理，但在涉及任务组合的实际应用中，它们的性能仍未得到充分探索。通过引入新的基准CompWoB，我们展示了从基本任务到组合任务的LMA表现下降，而在训练过程中平衡任务数据分布后，我们设计了一个新模型HTML-T5++，在MiniWoB上超过人类水平并在CompWoB上取得了最佳零样本性能。然而，在改变组合顺序的不同指令组合下，它们的性能进一步下降。与LMA的最新成功相反，我们的基准和详细分析突出了构建对真实世界部署具有稳健性和可泛化性的LMA的必要性。

Nov, 2023

复杂Android环境下大型语言模型代理的漏洞分析

大型语言模型 (LLM) 在特定领域的软件（如浏览器和游戏）中赋予智能代理执行复杂任务的能力。然而，应用于操作系统等通用软件系统时，LLM代理面临三个主要挑战：广泛且动态的操作空间，跨应用程序的合作需求以及符合用户约束条件的最优解。本研究设计了环境和基准测试工具 AndroidArena，通过可扩展的、半自动化的方法构建了该基准。研究结果发现，即使是最先进的LLM代理在跨应用程序情景和遵守特定约束方面也存在困难。此外，通过对反思能力的失败进行实证分析，提出的探索策略将成功率提高了27%。该工作首次揭示了LLM代理的细粒度弱点，并为未来研究提供了方向。AndroidArena的环境、基准以及评估代码已在链接中公开发布。

Feb, 2024

AutoWebGLM：基于大型语言模型的Web导航代理自动引导和强化

AutoWebGLM是一个建立在ChatGLM3-6B基础上的自动化网页导航智能体，它通过采用HTML简化算法来表示网页并利用混合人工智能方法构建网页浏览数据，再结合强化学习和拒绝抽样来提高网页理解、浏览器操作和任务分解的效率，在真实环境中提出了改进的同时也面临挑战。

Apr, 2024

MMInA：多跳多模态互联网代理的基准测试

多模态网站的自主体代理在逐渐演变的真实环境中完成复杂用户任务具有挑战性，提出了MMInA，这是一个多跳和多模态评估综合互联网任务能力的基准，通过构建真实世界的多模态网站和综合任务评估协议，发现自主体代理在长链多跳互联网任务方面存在挑战，提出了一种简单的记忆增强方法，明显提高了代理的单跳和多跳网络浏览能力。

Apr, 2024

基于大型语言模型的代理人的记忆机制调查

大型语言模型（LLM）基于代理近年来引起了研究和行业界的广泛关注。本文提出了对LLM基于代理的记忆机制进行全面调查，包括记忆的定义、需要、设计、评估以及在代理应用中的重要作用，并分析了现有工作的局限性和未来方向。

Apr, 2024

大型语言模型能够在网络代理任务上进行自我改进

通过在复杂环境中使用 WebArena 基准测试，我们探索了大语言模型在长期任务中作为代理人自我提升性能的程度，通过自我改进的方式，在三种不同的合成训练数据混合情况下，我们实现了在 WebArena 基准测试中任务完成率的31％提高，并额外提供了用于评估我们精调代理模型的性能、鲁棒性、功能和轨迹质量的新型评价指标。

May, 2024

揭示选择偏见：大型语言模型中的顺序和标记敏感性探索

我们在这篇论文中研究了大型语言模型（LLMs）中的“选择偏差”现象，专注于模型在从有序序列中选择最佳选项的问题。我们深入探讨了与选项顺序和标记使用相关的偏差，这些偏差显著影响了LLMs的决策过程。通过多个模型和任务的广泛实证分析，我们还对这些偏差的影响进行了量化。此外，我们提出了缓解策略以增强模型性能。我们的主要贡献有三个方面：1）精确量化了选项顺序和标记对LLMs的影响；2）开发了缓解标记和顺序敏感性以增强鲁棒性的策略；3）详细分析了不同模型和任务的敏感性，为选择问题的更稳定可靠的LLMs应用程序的创建提供了指导。

Jun, 2024

语言模型代理的树搜索

我们提出了一种推理时间搜索算法，用于在交互式网络环境中使语言模型代理能够进行探索和多步规划，实验证明搜索对于网络代理的有效性，并且在测试时间计算方面的性能随着增加而提高。

Jul, 2024

Windows代理竞技场：大规模评估多模态操作系统代理

本研究针对现有评估工具在真实环境中应用的局限性，提出了Windows代理竞技场，这是一种 reproducible 的通用环境，专注于Windows操作系统，支持多个任务的评估。创新性地开发超过150个多样化任务，并引入了新的多模态代理Navi，显著提高了评估的效率，为未来的代理开发和数据生成开辟了新的研究机会。

Sep, 2024

Windows代理竞技场：大规模评估多模态操作系统代理

本研究解决了在真实环境中评估计算机代理表现的挑战，包括现有基准测试的限制及其评估速度缓慢的问题。通过引入Windows代理竞技场，我们提供一个专注于Windows操作系统的可重复环境，创建了150多个多样化任务，旨在提高代理的规划和工具使用能力，这一评估方法可在20分钟内完成完整测试。最显著的发现是新代理Navi在Windows领域的成功率为19.5%，比无辅助人类低，但在Web基准Mind2Web上表现良好，展示了该领域未来研究的潜力。

Sep, 2024