评估大型语言模型中的多智能体协调能力
我们提出了一种新型基础设施,名为 MindAgent,用于评估游戏交互中的规划和协调能力,并引入了新的游戏场景和相关基准,以评估多智能体协作效率。我们使用新的自动度量 CoS 进行全面评估。我们希望我们对大型语言语料库学习的 LLMs 以及用于通用调度和协调的新基础设施的发现能够揭示如何获取这些技能的一些见解。
Sep, 2023
应用大型语言模型(LLMs)在各种任务和社会模拟中取得了显著进展,但它们在任务导向的社会背景中的协调能力尚未得到充分探索。为了弥合这一差距,我们引入了协作生成代理,为基于 LLMs 的代理赋予一致的行为模式和解决任务的能力。我们将这些代理置于一个模拟的招聘会环境中进行案例研究,以审查它们的协调能力。我们提出了一个新颖的框架,赋予协作生成代理人类般的推理能力和专业技能。我们的评估结果表明,这些代理显示出有希望的性能。然而,我们也发现了限制,阻碍了它们在更复杂的协调任务中的效果。我们的工作对于 LLMs 在任务导向的社会模拟中的作用和发展提供了有价值的见解。
Oct, 2023
评估了基于大型语言模型的多智能体协作文本游戏中的理论推理任务,并与多智能体强化学习和基于计划的基准进行比较。研究发现基于大型语言模型的智能体表现出紧密合作行为和高级理论推理能力,但也存在在管理长期视野环境和任务状态幻觉方面的规划优化限制。通过利用显式信念状态表示来减轻这些问题,改善了基于大型语言模型的智能体的任务表现和理论推理准确性。
Oct, 2023
论文提出了一种新的基于大型语言模型的多智能体合作框架,在多种身体环境中测试并得到了良好的效果,其具备规划、沟通和与其他人类或智能体合作完成长期任务等能力,并且与人类沟通的模型更容易获得信任,这为未来的智能体合作研究奠定了基础。
Jul, 2023
AI agents using Large Language Models (LLMs) have revolutionized human-AI coordination in various tasks, but their high inference latency makes them unsuitable for real-time applications; this paper proposes a Hierarchical Language Agent (HLA) that combines a proficient LLM, a lightweight LLM, and a reactive policy to provide strong reasoning abilities in real-time execution, showcasing superior cooperation abilities, faster responses, and more consistent language communications compared to other agents.
Dec, 2023
近年来,大型语言模型在问题回答、算术问题解决和诗歌创作等各种任务中展示了强大的能力。尽管关于以大型语言模型为代理的研究表明它可以应用于强化学习并取得不错的结果,但将基于大型语言模型的强化学习扩展到多智能体系统并不容易,因为许多方面,如智能体之间的协调和通信,在单智能体的强化学习框架中没有得到考虑。为了激发更多关于基于大型语言模型的多智能体强化学习的研究,本文调查了现有的基于大型语言模型的单智能体和多智能体强化学习框架,并提供了未来研究的潜在方向。特别关注多智能体共同目标合作任务和它们之间的通信,还考虑了语言组件在框架中实现的人机交互场景。
May, 2024
这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架,通过游戏和博弈论场景来创建不同的测试环境,并利用概率图模型方法增强模型的导航能力,最终量化评估了七种不同大型语言模型的能力,发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距,同时证实了概率图模型增强了所有模型的能力,平均提高了 50%。
Nov, 2023
本研究论文提出了一种新的框架,旨在提高大规模多智能体环境中大型语言模型的协调和决策能力,通过实验证明了我们提出的方法在系统资源分配和机器人网格运输方面具有显著优势。
Nov, 2023