解密数字侦探：了解多智能体谜题游戏中的 LLM 行为与能力

Dec, 2023

解密数字侦探：了解多智能体谜题游戏中的 LLM 行为与能力

Deciphering Digital Detectives: Understanding LLM Behaviors and Capabilities in Multi-Agent Mystery Games

Dekun Wu, Haochen Shi, Zhiyuan Sun, Bang Liu

TL;DR通过应用大型语言模型（LLMs）在中国的谋杀迷题角色扮演游戏 “Jubensha” 中，我们提出了第一个专为 Jubensha 设计的中文数据集，旨在促进该复杂叙事环境下 AI 智能体的发展。本研究还介绍了一种基于 LLMs 的独特多智能体交互框架，使得这些 AI 智能体能够自主参与游戏，增强 Jubensha 游戏的动态性。为了评估这些 AI 智能体的表现，我们开发了专门针对他们对案件信息和推理能力的精研方法。此外，我们还融合了最新的上下文学习技术，以改善智能体在信息收集、凶手检测和逻辑推理等关键方面的表现。实验结果验证了我们提出方法的有效性。本研究旨在为研究者在该领域提供理解 LLM 能力的新视角，并建立一个评估基于大型语言模型的智能体的新基准。

Abstract

In this study, we explore the application of large language models (LLMs) in "jubensha" (Chinese murder mystery role-playing games), a novel area in AI-driven gaming. We introduce the first Chinese dataset specif

large language models jubensha ai agents multi-agent interaction in-context learning

发现论文，激发创造

基于大型语言模型的游戏智能代理调查

利用 LLMs 在复杂的电脑游戏环境中赋予游戏智能体人类般的决策能力，以推进人工智能 (AGI) 的发展，并提供了 LLM 基础的游戏智能体的综述，包括感知、记忆、思考、角色扮演、行动和学习的六个关键组成部分，调研了六种游戏类型的现有代表性 LLM 基础游戏智能体，并展望了未来的研究和发展方向。

Apr, 2024

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

人物塑造命运：大型语言模型能否模拟以角色扮演为驱动的决策？

大型语言模型在决策中是否可以替代人类是一个近期的研究课题。本研究中，我们通过使用高质量小说中的人物分析数据构建了 LIFECHOICE 数据集，并进行了多项实验，研究了 LLMs 在以人物为驱动的决策中的能力。结果表明，目前的 LLMs 在此任务中显示出有希望的能力，但仍有很大的改进空间。因此，我们进一步提出了基于人物记忆检索的 CHARMAP 方法，通过该方法可以获得 6.01％的准确率提升。我们将公开提供我们的数据集和代码。

Apr, 2024

clembench: 使用游戏玩法评估对话代理的聊天优化语言模型

本文探索了一种方法，即在特定的游戏场景中测试大型语言模型的表现，以此来深入了解它们是否能像环境理解代理一样进行操作，涵盖了五个交互设置，并表明当前聊天优化的大型语言模型在一定程度上能够遵循游戏规则，并且用于衡量游戏表现和调查 LLM 的性能具有诊断价值。

May, 2023

PLAYER*: 提高基于 LLM 的多智能体通讯与互动在谋杀推理游戏中的效果

基于大型语言模型（LLM）的代理通信和社交互动的最新进展，尽管这些进展，但在涉及竞争和协作的动态环境中构建面向推理的 LLM 代理仍然具有挑战性，由于受到知情图搜索方法的局限性。我们提出了 PLAYER*，这是一种基于任意采样的规划器的新型框架，它利用传感器和修剪器，为复杂的推理任务提供了一个纯问题驱动的搜索框架。我们还引入了一种可量化的评估方法，使用多项选择题构建了包含 1,482 个问答对的 WellPlay 数据集。实验证明，与现有方法相比，PLAYER * 在具有可量化结果的复杂动态环境中提供了效率和性能的改进。

Apr, 2024

大型语言模型作为 Minecraft 代理

本研究探讨在 Minecraft 代理设置中应用和评估大型语言模型（LLMs），介绍澄清问题并研究改进的挑战和机会，同时提供了与代理互动的在线平台，并与先前的工作进行了评估。

Feb, 2024

MindAgent：新兴游戏互动

我们提出了一种新型基础设施，名为 MindAgent，用于评估游戏交互中的规划和协调能力，并引入了新的游戏场景和相关基准，以评估多智能体协作效率。我们使用新的自动度量 CoS 进行全面评估。我们希望我们对大型语言语料库学习的 LLMs 以及用于通用调度和协调的新基础设施的发现能够揭示如何获取这些技能的一些见解。

Sep, 2023

大型语言模型与视频游戏：初步范围评估

基于近年来大型语言模型 (LLMs) 在游戏设计、开发和研究中的潜力，本文针对与游戏相关的 LLM 的最新研究进行了初步调研，总结了 2022 年至 2024 年初间与 LLMs 和视频游戏相关的 76 篇论文，主要关注游戏人工智能、游戏开发、叙事以及游戏研究和评论，为未来的研究和评论奠定了基础。

Mar, 2024

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了 50%。

Nov, 2023

关于 LLMs 决策能力的探究：在多智能体环境中评估 LLMs 的游戏能力

通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力，研究发现 GPT-3.5 在鲁棒性方面表现出色，但其概括能力相对有限，通过 Chain-of-Thought 等方法可以提高其性能；此外，评估发现 GPT-4 在 GAMA-Bench 上表现最好，得分为 72.5，而 GPT-3.5 的不断更新也标志着模型智能的显着提高。

Mar, 2024