LLM 的谈判能力如何？谈判竞技场平台与分析

Feb, 2024

LLM 的谈判能力如何？谈判竞技场平台与分析

How Well Can LLMs Negotiate? NegotiationArena Platform and Analysis

Federico Bianchi, Patrick John Chia, Mert Yuksekgonul, Jacopo Tagliabue, Dan Jurafsky...

TL;DR使用大语言模型进行谈判以及利用行为策略和非理性谈判行为来提高谈判效果的研究。

Abstract

negotiation is the basis of social interactions; humans negotiate everything from the price of cars to how to share common resources. With rapidly growing interest in using large language models (LLMs) to act as

negotiation large language models negotiationarena behavioral tactics irrational negotiation behaviors

发现论文，激发创造

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

LLM 在谈判对话中的多维能力的系统评估

通过分析 LLMs 在各种对话场景中的多面能力，该研究旨在了解 LLMs 如何推进不同方面的谈判研究，包括设计对话系统、提供教学反馈和扩大数据收集实践。结果表明，虽然 GPT-4 在各种任务上表现出优越性，但在主观评估谈判对话和生成上下文恰当且战略优势的回复方面，模型与人类玩家的相关性较差、往往困难重重。

Feb, 2024

与 LLMS 的谈判：迅速入门、技能差距与推理缺陷

通过观察人类与大型语言模型（LLMs）的对话，本研究基于数据驱动的方法，对 LLMs 的治理和调节进行了归纳性分析，并探讨了非合作性、竞争性情境下的人机交互对人类可能构成的严重威胁以及利用 LLMs 的推理能力存在的不足和可操纵性。此外，研究还揭示了人类在与 LLMs 进行价格谈判时所达成的价格涵盖了广泛范围，指出了人类在有效与 LLMs 互动方面存在的文盲问题。

Nov, 2023

将你的资金投到你的口中：在拍卖竞技场中评估 LLM 代理的战略规划与执行

大型语言模型可以在复杂环境中模拟人类行为，在竞争环境中展示了高级推理技能，需要评估环境来探测战略推理、竞争动态场景中的长期规划，介绍了 AucArena 作为一个评估 LLMs 的新型模拟环境，在竞拍中证明了通过简单的提示，LLMs 确实展示了参与竞拍所需的许多技能，还发现对 LLM 代理进行自适应和观察过去竞拍策略的明确鼓励，可以提高这些技能的准确性，这些结果表明使用 LLM 代理模拟复杂社交动态的潜力，尤其在竞争环境中，但我们也观察到个体 LLMs 的能力存在相当大的变异性，值得注意的是，即使是最先进的模型（GPT-4）有时也会被启发式基准线和人类代理超越，这突显了 LLM 代理设计中进一步提高和我们的模拟环境在测试和改进代理体系结构中的重要作用。

Oct, 2023

个性化多议题协商游戏中的语言模型

利用大型语言模型（LLMs），AI 代理已经能够完成许多人类任务。使用最经典的大五人格定义，我们衡量 LLMs 在博弈论框架内进行协商的能力，以及衡量公平与风险概念的方法论挑战。模拟结果（n=1,500）显示基于不对称议题价值的领域复杂性增加会提高协议达成率，但降低了激进协商的剩余价值。通过梯度提升回归和 Shapley 解释器，我们发现高度的开放性、责任心和神经质与公平倾向有关；低和谐性和低开放性与理性倾向有关。低责任心与高毒性有关。这些结果表明 LLMs 可能具有默认公平行为的内置防护措施，但可以被 “越狱” 以利用同意的对手。我们还提供了关于如何设计谈判机器人的实用见解，并提供了一种基于博弈论和计算社会科学评估谈判行为的框架。

May, 2024

LLM 的谈判能力评估：基准与买方增强方法

描述并量化了 LLM 驱动代理在具有不完全信息的买卖任务中的议价能力，并通过提出一种集成了确定性商品生成器和自然语言生成器的新方法 OG-Narrator 来提高买家的交易成功率和利润。

Feb, 2024

评估语言模型代理的方法与谈判

通过协商游戏来共同评估语言模型的性能和对齐情况，发现开源模型目前无法完成这些任务，合作协商游戏具有挑战性，最强大的模型并非总是 “赢家”。

Jan, 2024

面向社交感知的辅助大型语言模型代理的谈判对话

通过使用 LLM 代理来减轻多代理环境下的谈判中的社会规范违规行为，并引入基于价值影响的上下文学习方法来识别高质量例子，以改善谈判结果。

Jan, 2024

LLM 代理人是否表现出社会行为？

大型语言模型在社交科学研究和实际应用中的作用被不断拓展，然而在与人类和其他代理进行交互时，这些模型展现了一系列人类类似的社交行为，同时也存在一些行为差异，因此需要进一步研究和发展评估协议，以直接应用这些模型来模拟人类行为。

Dec, 2023

关于 LLMs 决策能力的探究：在多智能体环境中评估 LLMs 的游戏能力

通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力，研究发现 GPT-3.5 在鲁棒性方面表现出色，但其概括能力相对有限，通过 Chain-of-Thought 等方法可以提高其性能；此外，评估发现 GPT-4 在 GAMA-Bench 上表现最好，得分为 72.5，而 GPT-3.5 的不断更新也标志着模型智能的显着提高。

Mar, 2024