更多的代理是你所需要的

Feb, 2024

More Agents Is All You Need

Junyou Li, Qin Zhang, Yangbin Yu, Qiang Fu, Deheng Ye

TL;DR通过采样和投票方法，我们发现大型语言模型（LLMs）的性能与代理数量成比例。此方法与现有的复杂方法无关，其增强程度与任务难度相关。我们在广泛的 LLM 基准上进行了综合实验，验证了我们的发现，并研究了可以促进该发现的特性。

Abstract

We find that, simply via a sampling-and-voting method, the performance of large language models (LLMs) scales with the number of agents in

large language models sampling-and-voting method performance orthogonal methods task difficulty

发现论文，激发创造

多智能体混合增强大型语言模型能力

利用大型语言模型的集体优势，提出了一种基于多代理的混合方法，该方法在多个任务上取得了领先的性能，特别在 AlpacaEval 2.0 上实现了 65.1% 的得分，超过了 GPT-4 Omni 的 57.5%。

Jun, 2024

基于大型语言模型的多智能体系统：进展与挑战综述

基于大型语言模型（LLM）的多智能体系统在复杂问题解决和世界模拟中取得了重大进展，我们提供了一份综述，深入讨论了基于 LLM 的多智能体系统的基本方面和挑战。

Jan, 2024

小型 LLM 是弱工具学习者：多 LLM 代理

我们提出了一个模块化的多语言模型框架，将大型语言模型能力分解为规划器、调用器和摘要生成器，并通过两阶段训练范式有效地训练该框架，该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果，凸显了其在工具学习中的功效和优势。

Jan, 2024

大型语言模型作为训练强化学习智能体的良好策略导师

通过使用大规模语言模型，我们提出了一种新的框架，通过从语言模型教师代理接收指导行为，训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中，该学生代理可以用较少的数据进行训练，并通过环境反馈进一步提升其能力。实验结果表明，我们的方法提高了样本效率，并实现了比基准方法更卓越的性能。

Nov, 2023

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

通过调整和多分支推理增强低参数 LLMs 的普通代理能力

通过构建特定于代理的数据和有监督微调模型，以及设计有效激活大型语言模型推理能力的提示方法，我们提出了一种综合的方法来提高大型语言模型作为代理的性能，并通过在 AgentBench 的五个代理任务上的评估取得了令人满意的结果。

Mar, 2024

基于大型语言模型的自主代理的调查

通过对基于大语言模型的自主代理的综合调查，本文提出了一个统一框架来概括以往研究，并总结了在社会科学、自然科学和工程领域中应用大语言模型的人工智能代理的各种应用及评估策略。同时，我们还讨论了该领域的挑战和未来方向。

Aug, 2023

多智能体协作：发挥智能 LLM 代理的力量

本文提出了一种通过多智能体系统来增强大型语言模型（LLMs）能力的新框架，并通过人工智能领域的案例研究展示了这一框架的实用性和多样性。

Jun, 2023

大型语言模型能够在网络代理任务上进行自我改进

通过在复杂环境中使用 WebArena 基准测试，我们探索了大语言模型在长期任务中作为代理人自我提升性能的程度，通过自我改进的方式，在三种不同的合成训练数据混合情况下，我们实现了在 WebArena 基准测试中任务完成率的 31％提高，并额外提供了用于评估我们精调代理模型的性能、鲁棒性、功能和轨迹质量的新型评价指标。

May, 2024

Agent-FLAN: 大型语言模型的高效代理调优数据和方法设计

通过重新设计训练语料库，Agent-FLAN 可以有效地对语言模型进行微调，从而提高代理模型在各种评估数据集上的性能，此外，Agent-FLAN 还能显著减轻幻觉问题，并在略微提高通用能力的同时，不断提高语言模型的代理能力。

Mar, 2024