关于 LLMs 决策能力的探究：在多智能体环境中评估 LLMs 的游戏能力

Mar, 2024

关于 LLMs 决策能力的探究：在多智能体环境中评估 LLMs 的游戏能力

How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments

Jen-tse Huang, Eric John Li, Man Ho Lam, Tian Liang, Wenxuan Wang...

TL;DR通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力，研究发现 GPT-3.5 在鲁棒性方面表现出色，但其概括能力相对有限，通过 Chain-of-Thought 等方法可以提高其性能；此外，评估发现 GPT-4 在 GAMA-Bench 上表现最好，得分为 72.5，而 GPT-3.5 的不断更新也标志着模型智能的显着提高。

Abstract

decision-making, a complicated task requiring various types of abilities, presents an excellent framework for assessing large language models (LLMs). Our research investigates LLMs' →

decision-making large language models game theory gama-bench robustness

发现论文，激发创造

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

基于大型语言模型的游戏智能代理调查

利用 LLMs 在复杂的电脑游戏环境中赋予游戏智能体人类般的决策能力，以推进人工智能 (AGI) 的发展，并提供了 LLM 基础的游戏智能体的综述，包括感知、记忆、思考、角色扮演、行动和学习的六个关键组成部分，调研了六种游戏类型的现有代表性 LLM 基础游戏智能体，并展望了未来的研究和发展方向。

Apr, 2024

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了 50%。

Nov, 2023

GTBench: 揭示 LLMs 的战略推理限制：基于博弈论评估

通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力，研究发现大型语言模型在游戏场景中的表现因任务类型而异，然而，开源的模型相较于商业模型在复杂游戏中表现不佳。

Feb, 2024

GameBench：评估 LLM 代理的战略推理能力

使用大型语言模型在游戏中评估策略推理能力的跨领域基准 (GameBench) 显示，虽然大多数测试模型并不及人类水平，但对策略推理能力的两种框架（CoT 和 RAP）能够提高分数。

Jun, 2024

使用大型语言模型进行反复游戏

使用行为博弈理论研究大型语言模型行为，结果显示它们在自我利益方面的表现非常出色，但在协调方面表现不佳，尤其表现出一些行为特征。

May, 2023

将你的资金投到你的口中：在拍卖竞技场中评估 LLM 代理的战略规划与执行

大型语言模型可以在复杂环境中模拟人类行为，在竞争环境中展示了高级推理技能，需要评估环境来探测战略推理、竞争动态场景中的长期规划，介绍了 AucArena 作为一个评估 LLMs 的新型模拟环境，在竞拍中证明了通过简单的提示，LLMs 确实展示了参与竞拍所需的许多技能，还发现对 LLM 代理进行自适应和观察过去竞拍策略的明确鼓励，可以提高这些技能的准确性，这些结果表明使用 LLM 代理模拟复杂社交动态的潜力，尤其在竞争环境中，但我们也观察到个体 LLMs 的能力存在相当大的变异性，值得注意的是，即使是最先进的模型（GPT-4）有时也会被启发式基准线和人类代理超越，这突显了 LLM 代理设计中进一步提高和我们的模拟环境在测试和改进代理体系结构中的重要作用。

Oct, 2023

关于使用大型语言模型进行角色扮演中的决策能力

通过评估大型语言模型在角色扮演后的决策能力，验证了角色扮演的有效性，提供了提升大型语言模型在角色扮演任务中决策能力的度量和指导。通过使用大型语言模型生成与 MBTI 人格类型相对应的虚拟角色描述，并设计具体的量化操作来评估大型语言模型在角色扮演后的决策能力，从适应性、探索与利用权衡能力、推理能力和安全性四个方面分析决策能力与相应 MBTI 类型的关联。实验结果表明，不同角色在决策能力的四个方面存在稳定的差异，显示出大型语言模型可以有效地扮演不同角色并体现其真实的社会学特征。

Feb, 2024

大型语言模型的战略行为：游戏结构 vs 上下文框架

通过四个典型的双人博弈游戏，研究了 GPT-3.5、GPT-4 和 LLaMa-2 这三种大型语言模型在战略决策能力方面，同时考察了上下文框架对模型决策的影响，结果发现 LLM 在战略决策方面存在限制和熟练程度差异，不宜在需要复杂战略推理的任务中不加区分地使用。

Sep, 2023

大型语言模型能否作为博弈论中的理性参与者？一项系统分析

利用大型语言模型作为替代人类参与游戏实验的工具来进行社会科学研究时，与人类行为高度一致的特点使其具备潜力，然而，尽管已经有大量关于大型语言模型与博弈论结合的实证研究，但大型语言模型在博弈论中的能力边界仍不清楚，因此我们试图在本研究中系统分析大型语言模型在博弈论背景下的表现，结果表明即使目前最先进的大型语言模型（GPT-4）与人类在博弈论方面存在显著差异，因此在社会科学领域引入大型语言模型进行游戏实验时应更加谨慎。

Dec, 2023