从语言模型到实用的自我改进计算机代理

Apr, 2024

从语言模型到实用的自我改进计算机代理

From Language Models to Practical Self-Improving Computer Agents

Alex Sheng

TL;DR我们开发了一种简单直接的方法，可以创建能够执行多种计算机任务并通过开发工具和扩展自身能力来自我改进的 AI 计算机代理。

Abstract

We develop a simple and straightforward methodology to create AI computer agents that can carry out diverse computer tasks and self-improve by developing tools and augmentations to enable themselves to solve increasingly complex tasks. As large language models (llms) have been shown to

ai computer agents non-parametric augmentations llms software augmentation prompt engineering

发现论文，激发创造

通过大型语言模型探索自主代理：一项综述

大型语言模型（LLMs）正在改变人工智能，使得自主代理能够在不同领域执行多样化任务。这些代理具备类似人类的文本理解和生成能力，有望在从客户服务到医疗保健等各个领域引发革命。然而，它们面临着诸如多模态、人类价值取向、幻觉和评估等挑战。推动、推理、工具利用和上下文学习等技术正在被探索，以增强它们的功能。像 AgentBench、WebArena 和 ToolLLM 这样的评估平台为在复杂场景中评估这些代理提供了强大的方法。这些进展正在引领更加有韧性和能力的自主代理的发展，预计它们将成为我们数字生活中不可或缺的一部分，协助我们完成从邮件回复到疾病诊断等任务。拥有 LLMs 带头的人工智能的未来充满了希望。

Apr, 2024

大型语言模型能够在网络代理任务上进行自我改进

通过在复杂环境中使用 WebArena 基准测试，我们探索了大语言模型在长期任务中作为代理人自我提升性能的程度，通过自我改进的方式，在三种不同的合成训练数据混合情况下，我们实现了在 WebArena 基准测试中任务完成率的 31％提高，并额外提供了用于评估我们精调代理模型的性能、鲁棒性、功能和轨迹质量的新型评价指标。

May, 2024

语言模型能解决计算机任务

本研究展示了一种使用 RCI 方法来自然语言执行计算机任务的代理方法，此方法能够显著提高计算机任务的自动化表现，优于现有的自然语言处理方法，并在自然语言推理任务中表现出较好的推理能力。

Mar, 2023

基于大语言模型的智能代理的崛起与潜力：一项调查

人工智能代理是一个前景光明的领域，利用大型语言模型作为基础构建通用人工智能代理带来了显著的进展，其在单一代理场景、多代理场景以及人机合作中的广泛应用展示了卓越的潜力，并为人类社会提供了有价值的见解。

Sep, 2023

无需修改语言模型的训练语言模型代理

通过 AgentOptimizer 提出了一种新的大型语言模型代理训练范式，通过更新代理的功能而不改变大型语言模型权重，通过回滚和提前停止策略来简化训练过程，可显著提高代理在各类下游任务中的性能。

Feb, 2024

通过代理分析提高机器人任务学习中从 LLMs 提取知识的能力

介绍了通过内置的自主机器人来扩大 LLM 响应的空间，根据语言能力、身体实体、环境和用户喜好挑选、修补、选择 LLM 提供的响应，从而使机器人能够完成 75% 以上的任务一次学习并显著减少需要人工监督的程度。

Jun, 2023

利用 LLMs 实现内容为中心的认知代理的知识获取自动化

该论文介绍了一种利用大型语言模型技术支持智能代理语义词典中新条目的自动学习的系统。这种学习方法通过现有的非玩具词典和自然语言生成器引导启动，将意义的表达按基本本体建立转换为自然语言句子。此学习方法已应用于学习多词表达式，其含义与智能代理语义词典中的及物动词等效。实验展示了一种融合基于知识的方法、资源、传统数据分析和大型语言模型的混合学习架构的优势。

Dec, 2023

软件渗透测试中使用大型语言模型的初步研究

利用大型语言模型（LLM）构建用于软件渗透测试的人工智能代理，通过反复使用和提示工程来提高模型性能。

Jan, 2024

核查事实并重试：利用外部知识和自动反馈提高大型语言模型

本研究提出了一种 LLm-Augmenter 系统，它通过使用存储在特定任务数据库中的外部知识和迭代地根据效用函数生成的反馈来改善 LLM 的提示，从而使其生成基于外部知识的响应，实现了应用到任务导向对话和问题回答的实际场景中，显著减少 ChatGPT 模型的幻觉。

Feb, 2023

专业代理 -- 将大型语言模型演变为具有人类级别能力的自主专家

大型语言模型的出现催生了自然语言处理的重大进展，通过引入专业代理框架（PAgents）利用 LLM 的能力创建具有可控、专业级、互动型专长的自主代理，我们认为通过持续发展的专业知识，PAgents 可以重塑专业服务。本文旨在激发关于 LLM 的有前景的现实应用的讨论，我们认为 PAgents 的日益复杂和集成可能会导致人工智能系统在复杂领域展示专业掌握能力，服务于重要需求，并潜在地实现人工通用智能。

Feb, 2024