LLM 在谈判对话中的多维能力的系统评估

Feb, 2024

LLM 在谈判对话中的多维能力的系统评估

Are LLMs Effective Negotiators? Systematic Evaluation of the Multifaceted Capabilities of LLMs in Negotiation Dialogues

Deuksin Kwon, Emily Weiss, Tara Kulshrestha, Kushal Chawla, Gale M. Lucas...

TL;DR通过分析 LLMs 在各种对话场景中的多面能力，该研究旨在了解 LLMs 如何推进不同方面的谈判研究，包括设计对话系统、提供教学反馈和扩大数据收集实践。结果表明，虽然 GPT-4 在各种任务上表现出优越性，但在主观评估谈判对话和生成上下文恰当且战略优势的回复方面，模型与人类玩家的相关性较差、往往困难重重。

Abstract

A successful negotiation demands a deep comprehension of the conversation context, Theory-of-Mind (ToM) skills to infer the partner's motives, as well as strategic reasoning and effective communication, making it challenging for →

negotiation automated systems llms dialogue systems data collection

发现论文，激发创造

LLM 的谈判能力如何？谈判竞技场平台与分析

使用大语言模型进行谈判以及利用行为策略和非理性谈判行为来提高谈判效果的研究。

Feb, 2024

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

与 LLMS 的谈判：迅速入门、技能差距与推理缺陷

通过观察人类与大型语言模型（LLMs）的对话，本研究基于数据驱动的方法，对 LLMs 的治理和调节进行了归纳性分析，并探讨了非合作性、竞争性情境下的人机交互对人类可能构成的严重威胁以及利用 LLMs 的推理能力存在的不足和可操纵性。此外，研究还揭示了人类在与 LLMs 进行价格谈判时所达成的价格涵盖了广泛范围，指出了人类在有效与 LLMs 互动方面存在的文盲问题。

Nov, 2023

LLM 对于面向任务的对话系统是否足够？

本研究旨在研究大型语言模型在多轮任务和与外部数据库交互方面的能力，发现在显式信仰状态跟踪方面，它们表现不如专门的任务特定模型，但是如果给出正确的插槽值，它们表现出将对话引导到成功结局的能力，并且在有真实信仰状态分布或域内示例的情况下，这种能力得到了改进。

Apr, 2023

个性化多议题协商游戏中的语言模型

利用大型语言模型（LLMs），AI 代理已经能够完成许多人类任务。使用最经典的大五人格定义，我们衡量 LLMs 在博弈论框架内进行协商的能力，以及衡量公平与风险概念的方法论挑战。模拟结果（n=1,500）显示基于不对称议题价值的领域复杂性增加会提高协议达成率，但降低了激进协商的剩余价值。通过梯度提升回归和 Shapley 解释器，我们发现高度的开放性、责任心和神经质与公平倾向有关；低和谐性和低开放性与理性倾向有关。低责任心与高毒性有关。这些结果表明 LLMs 可能具有默认公平行为的内置防护措施，但可以被 “越狱” 以利用同意的对手。我们还提供了关于如何设计谈判机器人的实用见解，并提供了一种基于博弈论和计算社会科学评估谈判行为的框架。

May, 2024

利用 LLMs 进行对话质量测量

该论文探讨了使用大型语言模型（LLMs）进行自动对话质量评估的方法，并在公共和专有数据集上尝试了各种配置。结果表明，更大的模型产生了更准确的对话标签；算法选择背景上下文示例优于随机选择；在输出最终标签之前，使用 “思维链”（CoT）推理和标签提取过程进行合理化，可以提高性能；精细调整的 LLMs 优于开箱即用的模型。研究结果表明，合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。

Jun, 2024

有用的 LLM 评估调查

通过讨论 LLMs 的核心能力、评估方法以及应用领域，我们提出了一个两阶段的框架来有效评估 LLMs 的能力，并考察了当前评估方法所面临的挑战和未来发展方向。

Jun, 2024

LLM 理论的心智与协调性：机遇与风险

大型语言模型在人机交互和人工智能方面的能力使他们能够以自然语言进行对话和推理，现在人们对于这些模型是否具备心智理论（ToM）的能力，即推理他人心理和情感状态的核心能力，产生了越来越多的兴趣。本研究通过对人类心智理论的角色和影响的文献进行探讨，识别出 LLM ToM 在个体和集体层面与人类互动中的关键领域，并指出了每个领域中所涉及的机会与风险。在个体层面上，本文考虑了 LLM ToM 在目标规范、对话适应、共情和拟人化方面的表现方式。在群体层面上，本文考虑了 LLM ToM 如何促进集体调适、合作或竞争以及道德判断。该研究阐述了一系列潜在的影响，并提出了未来研究的最急需关注的领域。

May, 2024

小型 LLM 是弱工具学习者：多 LLM 代理

我们提出了一个模块化的多语言模型框架，将大型语言模型能力分解为规划器、调用器和摘要生成器，并通过两阶段训练范式有效地训练该框架，该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果，凸显了其在工具学习中的功效和优势。

Jan, 2024

LLM 谈判中的情感分析

该论文介绍了一种用于情感分析的多 LLM 协商框架，其中包括一个推理注入生成器来提供决策及其理由，以及一个评估生成器可信度的解释推导鉴别器，通过迭代使生成器和鉴别器达成一致，从而解决了情感分析中的单一决策缺陷的问题。实验证明，该方法在各种情感分析基准上表现出更好的性能。

Nov, 2023