PLAYER*: 提高基于 LLM 的多智能体通讯与互动在谋杀推理游戏中的效果

Apr, 2024

PLAYER*: 提高基于 LLM 的多智能体通讯与互动在谋杀推理游戏中的效果

PLAYER*: Enhancing LLM-based Multi-Agent Communication and Interaction in Murder Mystery Games

Qinglin Zhu, Runcong Zhao, Jinhua Du, Lin Gui, Yulan He

TL;DR基于大型语言模型（LLM）的代理通信和社交互动的最新进展，尽管这些进展，但在涉及竞争和协作的动态环境中构建面向推理的 LLM 代理仍然具有挑战性，由于受到知情图搜索方法的局限性。我们提出了 PLAYER*，这是一种基于任意采样的规划器的新型框架，它利用传感器和修剪器，为复杂的推理任务提供了一个纯问题驱动的搜索框架。我们还引入了一种可量化的评估方法，使用多项选择题构建了包含 1,482 个问答对的 WellPlay 数据集。实验证明，与现有方法相比，PLAYER * 在具有可量化结果的复杂动态环境中提供了效率和性能的改进。

Abstract

Recent advancements in large language models (LLMs) have enhanced the efficacy of agent communication and social interactions. Despite these advancements, building LLM-based agents for →

large language models agent communication dynamic environments reasoning sampling-based planner

发现论文，激发创造

MindAgent：新兴游戏互动

我们提出了一种新型基础设施，名为 MindAgent，用于评估游戏交互中的规划和协调能力，并引入了新的游戏场景和相关基准，以评估多智能体协作效率。我们使用新的自动度量 CoS 进行全面评估。我们希望我们对大型语言语料库学习的 LLMs 以及用于通用调度和协调的新基础设施的发现能够揭示如何获取这些技能的一些见解。

Sep, 2023

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

提升大规模语言模型在狼人杀游戏中的推理能力

本文提出了一种创新的框架，将大型语言模型（LLMs）与外部思考器模块相结合，以增强基于 LLM 的代理机构的推理能力。该框架形成了一个推理层次结构，其中 LLMs 处理直觉性的 System-1 任务，而思考器专注于需要复杂逻辑分析和领域特定知识的认知 System-2 任务。实验证明了该框架在演绎推理、语音生成和在线游戏评估方面的有效性。此外，我们通过与思考器集成来调优 6B LLM，以超越 GPT4。本文还贡献了迄今为止最大的社交推理游戏数据集。

Feb, 2024

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了 50%。

Nov, 2023

基于大型语言模型的游戏智能代理调查

利用 LLMs 在复杂的电脑游戏环境中赋予游戏智能体人类般的决策能力，以推进人工智能 (AGI) 的发展，并提供了 LLM 基础的游戏智能体的综述，包括感知、记忆、思考、角色扮演、行动和学习的六个关键组成部分，调研了六种游戏类型的现有代表性 LLM 基础游戏智能体，并展望了未来的研究和发展方向。

Apr, 2024

解密数字侦探：了解多智能体谜题游戏中的 LLM 行为与能力

通过应用大型语言模型（LLMs）在中国的谋杀迷题角色扮演游戏 “Jubensha” 中，我们提出了第一个专为 Jubensha 设计的中文数据集，旨在促进该复杂叙事环境下 AI 智能体的发展。本研究还介绍了一种基于 LLMs 的独特多智能体交互框架，使得这些 AI 智能体能够自主参与游戏，增强 Jubensha 游戏的动态性。为了评估这些 AI 智能体的表现，我们开发了专门针对他们对案件信息和推理能力的精研方法。此外，我们还融合了最新的上下文学习技术，以改善智能体在信息收集、凶手检测和逻辑推理等关键方面的表现。实验结果验证了我们提出方法的有效性。本研究旨在为研究者在该领域提供理解 LLM 能力的新视角，并建立一个评估基于大型语言模型的智能体的新基准。

Dec, 2023

clembench: 使用游戏玩法评估对话代理的聊天优化语言模型

本文探索了一种方法，即在特定的游戏场景中测试大型语言模型的表现，以此来深入了解它们是否能像环境理解代理一样进行操作，涵盖了五个交互设置，并表明当前聊天优化的大型语言模型在一定程度上能够遵循游戏规则，并且用于衡量游戏表现和调查 LLM 的性能具有诊断价值。

May, 2023

大型语言模型作为双人游戏中的代理

通过在单一统一的机器学习范式中正式定义大型语言模型（LLM）的训练过程，包括预训练、监督微调和强化学习与人类反馈，我们可以获得推进 LLM 技术的重要见解。本文勾勒出 LLM 训练方法与两人博弈中代理人发展所采用的战略之间的相似之处，从博弈论、强化学习和多智能体系统的角度研究。我们提出了一种用基于语言游戏中代理人学习的方式重新构思 LLM 学习过程的框架。这个框架揭示了 LLM 发展中成功和挑战的创新视角，为解决对齐问题等战略考虑提供了新的理解。此外，我们的两人博弈方法为 LLM 训练提供了新颖的数据准备和机器学习技术。

Feb, 2024

使用大语言模型模块化地构建合作体验智能体

论文提出了一种新的基于大型语言模型的多智能体合作框架，在多种身体环境中测试并得到了良好的效果，其具备规划、沟通和与其他人类或智能体合作完成长期任务等能力，并且与人类沟通的模型更容易获得信任，这为未来的智能体合作研究奠定了基础。

Jul, 2023

使用强化学习的语言智能体在狼人杀游戏中进行战略性对战

基于强化学习的大语言模型（LLMs）和策略性语言智能体，通过使用 LLM 推理潜在欺诈行为和生成策略多样化动作的候选集，结合强化学习策略进行决策训练，取得了多样的突现策略，战胜其他 LLM 智能体并对抗人类对手在狼人游戏中保持强大。

Oct, 2023