BOLAA：基准测试和编排 LLM 增强的自主代理

Aug, 2023

BOLAA：基准测试和编排 LLM 增强的自主代理

BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents

Zhiwei Liu, Weiran Yao, Jianguo Zhang, Le Xue, Shelby Heinecke...

TL;DR大型语言模型（LLM）的巨大成功鼓舞了 LLM 增强型自主代理（LAA）的出现。LAA 能够使用其核心 LLM 生成动作并与环境交互，可以通过将过去的交互（包括观察和动作）作为条件来解决复杂任务的能力。我们提供了一个关于代理体系结构和 LLM 骨干的全面比较，同时提出了一种新的策略来编排多个 LAA，使得每个工作代理集中于一种类型的动作，即 BOLAA，其中一个控制器管理多个代理之间的通信。我们在决策制定和多步推理环境中进行了模拟，全面证明了 LAA 的能力。我们的性能结果量化地为设计 LAA 架构和 LLM 的最佳选择以及两者的兼容性提供了建议。我们将 LAA 的实现代码公开发布在 https://github.com/salesforce/BOLAA。

Abstract

The massive successes of large language models (LLMs) encourage the emerging exploration of LLM-augmented autonomous agents (LAAs). An LAA is able to generate actions with its core LLM and interact with environme

large language models autonomous agents agent architectures llm backbones bolaa

发现论文，激发创造

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

通过大型语言模型探索自主代理：一项综述

大型语言模型（LLMs）正在改变人工智能，使得自主代理能够在不同领域执行多样化任务。这些代理具备类似人类的文本理解和生成能力，有望在从客户服务到医疗保健等各个领域引发革命。然而，它们面临着诸如多模态、人类价值取向、幻觉和评估等挑战。推动、推理、工具利用和上下文学习等技术正在被探索，以增强它们的功能。像 AgentBench、WebArena 和 ToolLLM 这样的评估平台为在复杂场景中评估这些代理提供了强大的方法。这些进展正在引领更加有韧性和能力的自主代理的发展，预计它们将成为我们数字生活中不可或缺的一部分，协助我们完成从邮件回复到疾病诊断等任务。拥有 LLMs 带头的人工智能的未来充满了希望。

Apr, 2024

基于大型语言模型的自主代理的调查

通过对基于大语言模型的自主代理的综合调查，本文提出了一个统一框架来概括以往研究，并总结了在社会科学、自然科学和工程领域中应用大语言模型的人工智能代理的各种应用及评估策略。同时，我们还讨论了该领域的挑战和未来方向。

Aug, 2023

多智能体混合增强大型语言模型能力

利用大型语言模型的集体优势，提出了一种基于多代理的混合方法，该方法在多个任务上取得了领先的性能，特别在 AlpacaEval 2.0 上实现了 65.1% 的得分，超过了 GPT-4 Omni 的 57.5%。

Jun, 2024

LoTa-Bench: 为具有体现性代理的面向语言任务规划器进行基准测试

提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统，对大型语言模型和提示进行了广泛实验，并探索了基线任务规划器的多个改进，预计该基准工具将加快语言导向的任务规划器的发展。

Feb, 2024

大型多模态代理：综述

大型语言模型在多媒体领域的研究和发展方向的全面回顾，介绍了大型多媒体代理的开发要素和分类，评估方法的编制以及未来研究方向的提出。

Feb, 2024

基于大型语言模型的多智能体系统：进展与挑战综述

基于大型语言模型（LLM）的多智能体系统在复杂问题解决和世界模拟中取得了重大进展，我们提供了一份综述，深入讨论了基于 LLM 的多智能体系统的基本方面和挑战。

Jan, 2024

平衡自治和协调：基于多维度的多智能体架构自主型 LLM 动力的分类

本文提出了一个多维分类法，旨在分析自主的 LLM 驱动的多智能体系统在根据建筑观点的各个方面（如目标驱动的任务管理、智能体组成、多智能体协作和上下文交互）之间如何平衡自主性和对齐的动态相互作用。它还包括一个指定基本建筑概念的领域本体模型。我们的分类法旨在使研究人员、工程师和 AI 从业者能够系统地分析这些日益普遍的 AI 系统所采用的建筑动态和平衡策略。所选择的代表性 LLM 驱动的多智能体系统的探索性分类说明了它的实际效用，并揭示了未来研究和开发的潜力。

Oct, 2023

BMW Agents - 多智能体协作的任务自动化框架

设计了一个灵活的智能体工程框架，着重规划和执行，适用于多个领域的复杂应用，提供可靠性的工业应用，并提出了确保多个自主智能体共同解决任务的可扩展、灵活和协作式工作流技术。

Jun, 2024

LLM 增强型自治代理能够合作吗？— 通过熔炉验证其合作能力

大语言模型在自主代理中的合作能力及其与 Melting Pot 环境中的应用和评估

Mar, 2024