大型语言模型能够在网络代理任务上进行自我改进

May, 2024

大型语言模型能够在网络代理任务上进行自我改进

Large Language Models Can Self-Improve At Web Agent Tasks

Ajay Patel, Markus Hofmarcher, Claudiu Leoveanu-Condrei, Marius-Constantin Dinu, Chris Callison-Burch...

TL;DR通过在复杂环境中使用 WebArena 基准测试，我们探索了大语言模型在长期任务中作为代理人自我提升性能的程度，通过自我改进的方式，在三种不同的合成训练数据混合情况下，我们实现了在 WebArena 基准测试中任务完成率的 31％提高，并额外提供了用于评估我们精调代理模型的性能、鲁棒性、功能和轨迹质量的新型评价指标。

Abstract

training models to act as agents that can effectively navigate and perform actions in a complex environment, such as a web browser, has typically been challenging due to lack of training data. →

training models large language models complex environment self-improvement procedure webarena benchmark

发现论文，激发创造

通过大型语言模型探索自主代理：一项综述

大型语言模型（LLMs）正在改变人工智能，使得自主代理能够在不同领域执行多样化任务。这些代理具备类似人类的文本理解和生成能力，有望在从客户服务到医疗保健等各个领域引发革命。然而，它们面临着诸如多模态、人类价值取向、幻觉和评估等挑战。推动、推理、工具利用和上下文学习等技术正在被探索，以增强它们的功能。像 AgentBench、WebArena 和 ToolLLM 这样的评估平台为在复杂场景中评估这些代理提供了强大的方法。这些进展正在引领更加有韧性和能力的自主代理的发展，预计它们将成为我们数字生活中不可或缺的一部分，协助我们完成从邮件回复到疾病诊断等任务。拥有 LLMs 带头的人工智能的未来充满了希望。

Apr, 2024

WebAI 导航：使用大型语言模型和强化学习训练代理完成 Web 任务

该研究提出了一种将监督学习和强化学习技术相结合的新方法，通过在 MiniWoB 基准上利用两种方法的优势，解决了先前模型对 HTML 内容的理解上的关键限制，并展示了优于先前监督学习方法的实验结果，同时在与多模式强化学习方法相结合时缩小了与强化学习模型之间的性能差距，从而为未来的网络导航提供了新的方向和对语言建模在计算机任务中的潜力的洞察。

May, 2024

基于大型语言模型的自主代理的调查

通过对基于大语言模型的自主代理的综合调查，本文提出了一个统一框架来概括以往研究，并总结了在社会科学、自然科学和工程领域中应用大语言模型的人工智能代理的各种应用及评估策略。同时，我们还讨论了该领域的挑战和未来方向。

Aug, 2023

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过 fine-tuning 在多个任务上达到了 SOTA 水平。

Oct, 2022

从语言模型到实用的自我改进计算机代理

我们开发了一种简单直接的方法，可以创建能够执行多种计算机任务并通过开发工具和扩展自身能力来自我改进的 AI 计算机代理。

Apr, 2024

基于大型语言模型的多智能体系统：进展与挑战综述

基于大型语言模型（LLM）的多智能体系统在复杂问题解决和世界模拟中取得了重大进展，我们提供了一份综述，深入讨论了基于 LLM 的多智能体系统的基本方面和挑战。

Jan, 2024

大型语言模型作为训练强化学习智能体的良好策略导师

通过使用大规模语言模型，我们提出了一种新的框架，通过从语言模型教师代理接收指导行为，训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中，该学生代理可以用较少的数据进行训练，并通过环境反馈进一步提升其能力。实验结果表明，我们的方法提高了样本效率，并实现了比基准方法更卓越的性能。

Nov, 2023

LLMArena: 评估大型语言模型在动态多智能体环境中的能力

近期大型语言模型（LLM）在实现具备人类级智能的自主代理方面显示出了潜力，然而现有用于评估 LLM 代理的基准要么使用静态数据集，可能导致数据泄露，要么仅关注单一代理情景，忽略多代理交互的复杂性。我们引入了 LLMArena，这是一个新颖且易于扩展的框架，用于评估 LLM 在多代理动态环境中的各种能力。LLMArena 涵盖了七个不同的游戏环境，使用 Trueskill 评分来评估 LLM 代理的关键能力，包括空间推理、战略规划、数值推理、风险评估、沟通、对手建模和团队协作。通过对不同规模和类型的 LLM 进行广泛实验和人类评估，研究表明 LLM 在对手建模和团队协作方面仍有很长的发展道路，希望 LLMArena 能指导未来的研究，进一步增强 LLM 的这些能力，最终实现在动态多代理环境中更复杂和实用的应用。代码和数据将提供。

Feb, 2024

一个具有规划、长期上下文理解和程序综合的现实世界 Web 代理

基于大规模语言模型的 WebAgent 在网页导航任务中通过规划和总结 HTML 文档，以 Python 程序的形式实现自然语言指令，实验结果显示成功率提升了 50% 以上，并且 HTML-T5 模型在解决基于 HTML 的任务上表现最好。

Jul, 2023

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023