LLM 的谈判能力如何?谈判竞技场平台与分析
通过分析 LLMs 在各种对话场景中的多面能力,该研究旨在了解 LLMs 如何推进不同方面的谈判研究,包括设计对话系统、提供教学反馈和扩大数据收集实践。结果表明,虽然 GPT-4 在各种任务上表现出优越性,但在主观评估谈判对话和生成上下文恰当且战略优势的回复方面,模型与人类玩家的相关性较差、往往困难重重。
Feb, 2024
通过观察人类与大型语言模型(LLMs)的对话,本研究基于数据驱动的方法,对 LLMs 的治理和调节进行了归纳性分析,并探讨了非合作性、竞争性情境下的人机交互对人类可能构成的严重威胁以及利用 LLMs 的推理能力存在的不足和可操纵性。此外,研究还揭示了人类在与 LLMs 进行价格谈判时所达成的价格涵盖了广泛范围,指出了人类在有效与 LLMs 互动方面存在的文盲问题。
Nov, 2023
大型语言模型可以在复杂环境中模拟人类行为,在竞争环境中展示了高级推理技能,需要评估环境来探测战略推理、竞争动态场景中的长期规划,介绍了 AucArena 作为一个评估 LLMs 的新型模拟环境,在竞拍中证明了通过简单的提示,LLMs 确实展示了参与竞拍所需的许多技能,还发现对 LLM 代理进行自适应和观察过去竞拍策略的明确鼓励,可以提高这些技能的准确性,这些结果表明使用 LLM 代理模拟复杂社交动态的潜力,尤其在竞争环境中,但我们也观察到个体 LLMs 的能力存在相当大的变异性,值得注意的是,即使是最先进的模型(GPT-4)有时也会被启发式基准线和人类代理超越,这突显了 LLM 代理设计中进一步提高和我们的模拟环境在测试和改进代理体系结构中的重要作用。
Oct, 2023
利用大型语言模型(LLMs),AI 代理已经能够完成许多人类任务。使用最经典的大五人格定义,我们衡量 LLMs 在博弈论框架内进行协商的能力,以及衡量公平与风险概念的方法论挑战。模拟结果(n=1,500)显示基于不对称议题价值的领域复杂性增加会提高协议达成率,但降低了激进协商的剩余价值。通过梯度提升回归和 Shapley 解释器,我们发现高度的开放性、责任心和神经质与公平倾向有关;低和谐性和低开放性与理性倾向有关。低责任心与高毒性有关。这些结果表明 LLMs 可能具有默认公平行为的内置防护措施,但可以被 “越狱” 以利用同意的对手。我们还提供了关于如何设计谈判机器人的实用见解,并提供了一种基于博弈论和计算社会科学评估谈判行为的框架。
May, 2024
描述并量化了 LLM 驱动代理在具有不完全信息的买卖任务中的议价能力,并通过提出一种集成了确定性商品生成器和自然语言生成器的新方法 OG-Narrator 来提高买家的交易成功率和利润。
Feb, 2024
大型语言模型在社交科学研究和实际应用中的作用被不断拓展,然而在与人类和其他代理进行交互时,这些模型展现了一系列人类类似的社交行为,同时也存在一些行为差异,因此需要进一步研究和发展评估协议,以直接应用这些模型来模拟人类行为。
Dec, 2023
通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力,研究发现 GPT-3.5 在鲁棒性方面表现出色,但其概括能力相对有限,通过 Chain-of-Thought 等方法可以提高其性能;此外,评估发现 GPT-4 在 GAMA-Bench 上表现最好,得分为 72.5,而 GPT-3.5 的不断更新也标志着模型智能的显着提高。
Mar, 2024