LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

Sep, 2023

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent Negotiation Games

Sahar Abdelnabi, Amr Gomaa, Sarath Sivaprasad, Lea Schönherr, Mario Fritz

TL;DR使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Abstract

There is a growing interest in using large language models (LLMs) as agents to tackle real-world tasks that may require assessing complex situations. Yet, we have a limited understanding of LLMs' reasoning and de

large language models negotiation games reasoning decision-making capabilities evaluation benchmarks

发现论文，激发创造

LLM 的谈判能力如何？谈判竞技场平台与分析

使用大语言模型进行谈判以及利用行为策略和非理性谈判行为来提高谈判效果的研究。

Feb, 2024

关于 LLMs 决策能力的探究：在多智能体环境中评估 LLMs 的游戏能力

通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力，研究发现 GPT-3.5 在鲁棒性方面表现出色，但其概括能力相对有限，通过 Chain-of-Thought 等方法可以提高其性能；此外，评估发现 GPT-4 在 GAMA-Bench 上表现最好，得分为 72.5，而 GPT-3.5 的不断更新也标志着模型智能的显着提高。

Mar, 2024

评估语言模型代理的方法与谈判

通过协商游戏来共同评估语言模型的性能和对齐情况，发现开源模型目前无法完成这些任务，合作协商游戏具有挑战性，最强大的模型并非总是 “赢家”。

Jan, 2024

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了 50%。

Nov, 2023

LLM 在谈判对话中的多维能力的系统评估

通过分析 LLMs 在各种对话场景中的多面能力，该研究旨在了解 LLMs 如何推进不同方面的谈判研究，包括设计对话系统、提供教学反馈和扩大数据收集实践。结果表明，虽然 GPT-4 在各种任务上表现出优越性，但在主观评估谈判对话和生成上下文恰当且战略优势的回复方面，模型与人类玩家的相关性较差、往往困难重重。

Feb, 2024

clembench: 使用游戏玩法评估对话代理的聊天优化语言模型

本文探索了一种方法，即在特定的游戏场景中测试大型语言模型的表现，以此来深入了解它们是否能像环境理解代理一样进行操作，涵盖了五个交互设置，并表明当前聊天优化的大型语言模型在一定程度上能够遵循游戏规则，并且用于衡量游戏表现和调查 LLM 的性能具有诊断价值。

May, 2023

与 LLMS 的谈判：迅速入门、技能差距与推理缺陷

通过观察人类与大型语言模型（LLMs）的对话，本研究基于数据驱动的方法，对 LLMs 的治理和调节进行了归纳性分析，并探讨了非合作性、竞争性情境下的人机交互对人类可能构成的严重威胁以及利用 LLMs 的推理能力存在的不足和可操纵性。此外，研究还揭示了人类在与 LLMs 进行价格谈判时所达成的价格涵盖了广泛范围，指出了人类在有效与 LLMs 互动方面存在的文盲问题。

Nov, 2023

将你的资金投到你的口中：在拍卖竞技场中评估 LLM 代理的战略规划与执行

大型语言模型可以在复杂环境中模拟人类行为，在竞争环境中展示了高级推理技能，需要评估环境来探测战略推理、竞争动态场景中的长期规划，介绍了 AucArena 作为一个评估 LLMs 的新型模拟环境，在竞拍中证明了通过简单的提示，LLMs 确实展示了参与竞拍所需的许多技能，还发现对 LLM 代理进行自适应和观察过去竞拍策略的明确鼓励，可以提高这些技能的准确性，这些结果表明使用 LLM 代理模拟复杂社交动态的潜力，尤其在竞争环境中，但我们也观察到个体 LLMs 的能力存在相当大的变异性，值得注意的是，即使是最先进的模型（GPT-4）有时也会被启发式基准线和人类代理超越，这突显了 LLM 代理设计中进一步提高和我们的模拟环境在测试和改进代理体系结构中的重要作用。

Oct, 2023

基于大型语言模型的游戏智能代理调查

利用 LLMs 在复杂的电脑游戏环境中赋予游戏智能体人类般的决策能力，以推进人工智能 (AGI) 的发展，并提供了 LLM 基础的游戏智能体的综述，包括感知、记忆、思考、角色扮演、行动和学习的六个关键组成部分，调研了六种游戏类型的现有代表性 LLM 基础游戏智能体，并展望了未来的研究和发展方向。

Apr, 2024

GameEval：对话游戏下 LLM 的评估

通过目标驱动的对话游戏，GameEval 提出了一种新的评估大型语言模型的方法，能够全面评估模型的性能，展示其解决复杂问题的综合能力。

Aug, 2023