元素排序对语言模型代理性能的影响
LMA在基本任务上的表现优于人类和强化学习代理,但在涉及任务组合的实际应用中,它们的性能仍未得到充分探索。通过引入新的基准CompWoB,我们展示了从基本任务到组合任务的LMA表现下降,而在训练过程中平衡任务数据分布后,我们设计了一个新模型HTML-T5++,在MiniWoB上超过人类水平并在CompWoB上取得了最佳零样本性能。然而,在改变组合顺序的不同指令组合下,它们的性能进一步下降。与LMA的最新成功相反,我们的基准和详细分析突出了构建对真实世界部署具有稳健性和可泛化性的LMA的必要性。
Nov, 2023
大型语言模型 (LLM) 在特定领域的软件(如浏览器和游戏)中赋予智能代理执行复杂任务的能力。然而,应用于操作系统等通用软件系统时,LLM代理面临三个主要挑战:广泛且动态的操作空间,跨应用程序的合作需求以及符合用户约束条件的最优解。本研究设计了环境和基准测试工具 AndroidArena,通过可扩展的、半自动化的方法构建了该基准。研究结果发现,即使是最先进的LLM代理在跨应用程序情景和遵守特定约束方面也存在困难。此外,通过对反思能力的失败进行实证分析,提出的探索策略将成功率提高了27%。该工作首次揭示了LLM代理的细粒度弱点,并为未来研究提供了方向。AndroidArena的环境、基准以及评估代码已在链接中公开发布。
Feb, 2024
AutoWebGLM是一个建立在ChatGLM3-6B基础上的自动化网页导航智能体,它通过采用HTML简化算法来表示网页并利用混合人工智能方法构建网页浏览数据,再结合强化学习和拒绝抽样来提高网页理解、浏览器操作和任务分解的效率,在真实环境中提出了改进的同时也面临挑战。
Apr, 2024
多模态网站的自主体代理在逐渐演变的真实环境中完成复杂用户任务具有挑战性,提出了MMInA,这是一个多跳和多模态评估综合互联网任务能力的基准,通过构建真实世界的多模态网站和综合任务评估协议,发现自主体代理在长链多跳互联网任务方面存在挑战,提出了一种简单的记忆增强方法,明显提高了代理的单跳和多跳网络浏览能力。
Apr, 2024
大型语言模型(LLM)基于代理近年来引起了研究和行业界的广泛关注。本文提出了对LLM基于代理的记忆机制进行全面调查,包括记忆的定义、需要、设计、评估以及在代理应用中的重要作用,并分析了现有工作的局限性和未来方向。
Apr, 2024
通过在复杂环境中使用 WebArena 基准测试,我们探索了大语言模型在长期任务中作为代理人自我提升性能的程度,通过自我改进的方式,在三种不同的合成训练数据混合情况下,我们实现了在 WebArena 基准测试中任务完成率的31%提高,并额外提供了用于评估我们精调代理模型的性能、鲁棒性、功能和轨迹质量的新型评价指标。
May, 2024
我们在这篇论文中研究了大型语言模型(LLMs)中的“选择偏差”现象,专注于模型在从有序序列中选择最佳选项的问题。我们深入探讨了与选项顺序和标记使用相关的偏差,这些偏差显著影响了LLMs的决策过程。通过多个模型和任务的广泛实证分析,我们还对这些偏差的影响进行了量化。此外,我们提出了缓解策略以增强模型性能。我们的主要贡献有三个方面:1)精确量化了选项顺序和标记对LLMs的影响;2)开发了缓解标记和顺序敏感性以增强鲁棒性的策略;3)详细分析了不同模型和任务的敏感性,为选择问题的更稳定可靠的LLMs应用程序的创建提供了指导。
Jun, 2024
我们提出了一种推理时间搜索算法,用于在交互式网络环境中使语言模型代理能够进行探索和多步规划,实验证明搜索对于网络代理的有效性,并且在测试时间计算方面的性能随着增加而提高。
Jul, 2024
本研究针对现有评估工具在真实环境中应用的局限性,提出了Windows代理竞技场,这是一种 reproducible 的通用环境,专注于Windows操作系统,支持多个任务的评估。创新性地开发超过150个多样化任务,并引入了新的多模态代理Navi,显著提高了评估的效率,为未来的代理开发和数据生成开辟了新的研究机会。
Sep, 2024
本研究解决了在真实环境中评估计算机代理表现的挑战,包括现有基准测试的限制及其评估速度缓慢的问题。通过引入Windows代理竞技场,我们提供一个专注于Windows操作系统的可重复环境,创建了150多个多样化任务,旨在提高代理的规划和工具使用能力,这一评估方法可在20分钟内完成完整测试。最显著的发现是新代理Navi在Windows领域的成功率为19.5%,比无辅助人类低,但在Web基准Mind2Web上表现良好,展示了该领域未来研究的潜力。
Sep, 2024