将你的资金投到你的口中：在拍卖竞技场中评估 LLM 代理的战略规划与执行

Oct, 2023

将你的资金投到你的口中：在拍卖竞技场中评估 LLM 代理的战略规划与执行

Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena

Jiangjie Chen, Siyu Yuan, Rong Ye, Bodhisattwa Prasad Majumder, Kyle Richardson

TL;DR大型语言模型可以在复杂环境中模拟人类行为，在竞争环境中展示了高级推理技能，需要评估环境来探测战略推理、竞争动态场景中的长期规划，介绍了 AucArena 作为一个评估 LLMs 的新型模拟环境，在竞拍中证明了通过简单的提示，LLMs 确实展示了参与竞拍所需的许多技能，还发现对 LLM 代理进行自适应和观察过去竞拍策略的明确鼓励，可以提高这些技能的准确性，这些结果表明使用 LLM 代理模拟复杂社交动态的潜力，尤其在竞争环境中，但我们也观察到个体 LLMs 的能力存在相当大的变异性，值得注意的是，即使是最先进的模型（GPT-4）有时也会被启发式基准线和人类代理超越，这突显了 LLM 代理设计中进一步提高和我们的模拟环境在测试和改进代理体系结构中的重要作用。

Abstract

Can large language models (LLMs) simulate human behavior in complex environments? LLMs have recently been shown to exhibit advanced reasoning skills but much of NLP evaluation still relies on static benchmarks. Answering this requires →

large language models evaluation environments aucarena llm agents simulation environment

发现论文，激发创造

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

LLM 的谈判能力如何？谈判竞技场平台与分析

使用大语言模型进行谈判以及利用行为策略和非理性谈判行为来提高谈判效果的研究。

Feb, 2024

LLMArena: 评估大型语言模型在动态多智能体环境中的能力

近期大型语言模型（LLM）在实现具备人类级智能的自主代理方面显示出了潜力，然而现有用于评估 LLM 代理的基准要么使用静态数据集，可能导致数据泄露，要么仅关注单一代理情景，忽略多代理交互的复杂性。我们引入了 LLMArena，这是一个新颖且易于扩展的框架，用于评估 LLM 在多代理动态环境中的各种能力。LLMArena 涵盖了七个不同的游戏环境，使用 Trueskill 评分来评估 LLM 代理的关键能力，包括空间推理、战略规划、数值推理、风险评估、沟通、对手建模和团队协作。通过对不同规模和类型的 LLM 进行广泛实验和人类评估，研究表明 LLM 在对手建模和团队协作方面仍有很长的发展道路，希望 LLMArena 能指导未来的研究，进一步增强 LLM 的这些能力，最终实现在动态多代理环境中更复杂和实用的应用。代码和数据将提供。

Feb, 2024

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

关于大型语言模型的规划能力（一项带有提议基准的关键调查）

研究了通用 Web 语料库上训练的语言模型的计划能力，开发了基于国际计划竞赛领域的基准套件，在自治、启发式和人机协作模式下对 LLM 进行了评估，发现自主生成可执行计划的能力非常有限，只有约 3% 的成功率。

Feb, 2023

关于 LLMs 决策能力的探究：在多智能体环境中评估 LLMs 的游戏能力

通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力，研究发现 GPT-3.5 在鲁棒性方面表现出色，但其概括能力相对有限，通过 Chain-of-Thought 等方法可以提高其性能；此外，评估发现 GPT-4 在 GAMA-Bench 上表现最好，得分为 72.5，而 GPT-3.5 的不断更新也标志着模型智能的显着提高。

Mar, 2024

评估语言模型代理的方法与谈判

通过协商游戏来共同评估语言模型的性能和对齐情况，发现开源模型目前无法完成这些任务，合作协商游戏具有挑战性，最强大的模型并非总是 “赢家”。

Jan, 2024

ResearchArena：评估 LLMs 作为研究代理的信息收集和组织能力

利用 ResearchArena 测量大型语言模型代理在进行学术调查的能力，将调查流程分为信息发现、信息选择和信息组织三个阶段，在离线环境中评估代理定位支持材料、对定位的论文进行排名和将其组织成层次知识思维导图的能力，根据初步评估发现大型语言模型方法与基于关键词检索技术相比表现不佳，未来研究具有重要发展机会。

Jun, 2024

大型语言模型的规划能力 - 一项关键调查

本文旨在研究 LLLms 在常识规划任务中的规划能力，通过在国际计划竞赛中生成一系列实例，并评估 LLMs 在自主规划和启发式两种不同模式下的表现，发现 LLMs 在自主规划方面的表现非常有限，但在启发式模式下，LLMs 生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。

May, 2023

使用 MT-Bench 和 Chatbot Arena 判断 LLM 作为法官

本研究介绍了使用强大的大型语言模型（LLM）作为评价者来评估基于 LLM 的聊天助手的方法，并引入了多个类别的评价指标。研究结果表明，LLM 评价者可以很好地匹配人类的偏好，且其评估结果与人类评估者的结果一致。

Jun, 2023