面向语言模型代理的自适应对话团队建设
基于任务查询构建动态交互结构的大型语言模型代理网络(DyLAN)在推理和代码生成任务中展现出良好性能,使用无监督度量的自动代理团队优化算法根据每个代理的贡献选择最佳代理,相较于GPT-35-turbo的单次执行,DyLAN在MATH和HumanEval任务上分别实现了13.0%和13.3%的改进,并在MMLU特定主题上提高了25.0%的准确率。
Oct, 2023
AgentTuning是一种简单且通用的方法,可以提高大型语言模型在代理任务方面的能力,同时保持其一般能力。该方法通过使用AgentInstruct与通用领域的开源指令相结合的混合指令调整策略对Llama 2系列进行了指令调整,从而得到AgentLM。评估结果显示,AgentTuning能够提升语言模型的代理能力而不影响其一般能力,AgentLM-70B在未知代理任务上与GPT-3.5-turbo相媲美,展现了广义的代理能力。我们在指定的网址开源了AgentInstruct和AgentLM-7B、13B和70B模型,为代理任务提供了开源和强大的替代方案。
Oct, 2023
我们的研究关注于自然语言驱动的环境中的多代理协作问题,通过对LLM代理的研究,我们发现了LLM代理在团队协作中的潜力,并指出了与交流中的幻觉相关的问题。为了解决这个问题,我们开发了CodeAct,一种具备增强记忆和代码驱动推理功能的通用代理,使其能够再利用部分信息以快速适应新团队成员。
Dec, 2023
对基于大型语言模型(LLM)的智能代理进行了深入调查,涵盖了单代理和多代理系统中的定义、研究框架、组成、认知和规划方法、工具利用、对环境反馈的响应,以及在多代理系统中部署LLM-based代理的机制,包括多角色协作、信息传递和缓解代理之间通信问题的策略,同时介绍了流行的数据集和应用场景,最后展望了基于LLM的代理在人工智能和自然语言处理领域的前景。
Jan, 2024
基于大型语言模型(LLM)的多智能体系统在复杂问题解决和世界模拟中取得了重大进展,我们提供了一份综述,深入讨论了基于LLM的多智能体系统的基本方面和挑战。
Jan, 2024
通过AgentOptimizer提出了一种新的大型语言模型代理训练范式,通过更新代理的功能而不改变大型语言模型权重,通过回滚和提前停止策略来简化训练过程,可显著提高代理在各类下游任务中的性能。
Feb, 2024
近期大型语言模型(LLM)在实现具备人类级智能的自主代理方面显示出了潜力,然而现有用于评估LLM代理的基准要么使用静态数据集,可能导致数据泄露,要么仅关注单一代理情景,忽略多代理交互的复杂性。我们引入了LLMArena,这是一个新颖且易于扩展的框架,用于评估LLM在多代理动态环境中的各种能力。LLMArena涵盖了七个不同的游戏环境,使用Trueskill评分来评估LLM代理的关键能力,包括空间推理、战略规划、数值推理、风险评估、沟通、对手建模和团队协作。通过对不同规模和类型的LLM进行广泛实验和人类评估,研究表明LLM在对手建模和团队协作方面仍有很长的发展道路,希望LLMArena能指导未来的研究,进一步增强LLM的这些能力,最终实现在动态多代理环境中更复杂和实用的应用。代码和数据将提供。
Feb, 2024
在这篇论文中,我们提出了一种通过采用集成方法来确定在与特定队友进行交互过程中,哪个内部专家代理是最佳匹配的,从而使得基于语言的Codenames智能代理更具个体化适应性的方法。
Feb, 2024
通过构建可扩展的模块化基准和评估指标,提出了AgentQuest框架用于追踪和改进大规模语言模型代理在解决复杂多步骤推理任务中的性能。
Apr, 2024