MindAgent：新兴游戏互动

Sep, 2023

MindAgent: Emergent Gaming Interaction

Ran Gong, Qiuyuan Huang, Xiaojian Ma, Hoi Vo, Zane Durante...

TL;DR我们提出了一种新型基础设施，名为 MindAgent，用于评估游戏交互中的规划和协调能力，并引入了新的游戏场景和相关基准，以评估多智能体协作效率。我们使用新的自动度量 CoS 进行全面评估。我们希望我们对大型语言语料库学习的 LLMs 以及用于通用调度和协调的新基础设施的发现能够揭示如何获取这些技能的一些见解。

Abstract

large language models (LLMs) have the capacity of performing complex scheduling in a multi-agent system and can coordinate these agents into completing sophisticated tasks that require extensive collaboration. However, despite the introduction of numerous gaming frameworks, the communi

large language models mindagent multi-agent collaboration cuisineworld auto-metric cos

发现论文，激发创造

评估大型语言模型中的多智能体协调能力

该研究介绍了使用大型语言模型在多智能体协调方面的有效性评估，构建了 LLM-Co 框架来使 LLMs 能够进行协调游戏，并展示了 LLMs 在不同方面的评估结果，从而强调了 LLMs 在复杂协调环境中的潜力。

Oct, 2023

基于协作生成代理的 LLM 任务导向协调中人类行为互动模拟

应用大型语言模型（LLMs）在各种任务和社会模拟中取得了显著进展，但它们在任务导向的社会背景中的协调能力尚未得到充分探索。为了弥合这一差距，我们引入了协作生成代理，为基于 LLMs 的代理赋予一致的行为模式和解决任务的能力。我们将这些代理置于一个模拟的招聘会环境中进行案例研究，以审查它们的协调能力。我们提出了一个新颖的框架，赋予协作生成代理人类般的推理能力和专业技能。我们的评估结果表明，这些代理显示出有希望的性能。然而，我们也发现了限制，阻碍了它们在更复杂的协调任务中的效果。我们的工作对于 LLMs 在任务导向的社会模拟中的作用和发展提供了有价值的见解。

Oct, 2023

多智能体协作：发挥智能 LLM 代理的力量

本文提出了一种通过多智能体系统来增强大型语言模型（LLMs）能力的新框架，并通过人工智能领域的案例研究展示了这一框架的实用性和多样性。

Jun, 2023

基于大型语言模型的游戏智能代理调查

利用 LLMs 在复杂的电脑游戏环境中赋予游戏智能体人类般的决策能力，以推进人工智能 (AGI) 的发展，并提供了 LLM 基础的游戏智能体的综述，包括感知、记忆、思考、角色扮演、行动和学习的六个关键组成部分，调研了六种游戏类型的现有代表性 LLM 基础游戏智能体，并展望了未来的研究和发展方向。

Apr, 2024

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了 50%。

Nov, 2023

LLM 强化的分层语言代理用于实时的人工智能与人类协调

AI agents using Large Language Models (LLMs) have revolutionized human-AI coordination in various tasks, but their high inference latency makes them unsuitable for real-time applications; this paper proposes a Hierarchical Language Agent (HLA) that combines a proficient LLM, a lightweight LLM, and a reactive policy to provide strong reasoning abilities in real-time execution, showcasing superior cooperation abilities, faster responses, and more consistent language communications compared to other agents.

Dec, 2023

使用大语言模型模块化地构建合作体验智能体

论文提出了一种新的基于大型语言模型的多智能体合作框架，在多种身体环境中测试并得到了良好的效果，其具备规划、沟通和与其他人类或智能体合作完成长期任务等能力，并且与人类沟通的模型更容易获得信任，这为未来的智能体合作研究奠定了基础。

Jul, 2023

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

clembench: 使用游戏玩法评估对话代理的聊天优化语言模型

本文探索了一种方法，即在特定的游戏场景中测试大型语言模型的表现，以此来深入了解它们是否能像环境理解代理一样进行操作，涵盖了五个交互设置，并表明当前聊天优化的大型语言模型在一定程度上能够遵循游戏规则，并且用于衡量游戏表现和调查 LLM 的性能具有诊断价值。

May, 2023

GameGPT: 游戏开发的多智能体协作框架

本研究提出了 GameGPT，一个多智能体协作框架，以自动化游戏开发。通过双重协作和分层方法，并应用多种内部词汇表，在规划、任务识别和实施阶段缓解幻觉和冗余问题。此外，还引入了一种解耦方法，以实现更精确的代码生成。

Oct, 2023