个性化多议题协商游戏中的语言模型

May, 2024

个性化多议题协商游戏中的语言模型

LLMs with Personalities in Multi-issue Negotiation Games

Sean Noh, Ho-Chun Herbert Chang

TL;DR利用大型语言模型（LLMs），AI 代理已经能够完成许多人类任务。使用最经典的大五人格定义，我们衡量 LLMs 在博弈论框架内进行协商的能力，以及衡量公平与风险概念的方法论挑战。模拟结果（n=1,500）显示基于不对称议题价值的领域复杂性增加会提高协议达成率，但降低了激进协商的剩余价值。通过梯度提升回归和 Shapley 解释器，我们发现高度的开放性、责任心和神经质与公平倾向有关；低和谐性和低开放性与理性倾向有关。低责任心与高毒性有关。这些结果表明 LLMs 可能具有默认公平行为的内置防护措施，但可以被 “越狱” 以利用同意的对手。我们还提供了关于如何设计谈判机器人的实用见解，并提供了一种基于博弈论和计算社会科学评估谈判行为的框架。

Abstract

Powered by large language models (LLMs), ai agents have become capable of many human tasks. Using the most canonical definitions of the Big Five personality, we measure the ability of LLMs to negotiate within a g

large language models ai agents negotiation fairness risk

发现论文，激发创造

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

LLM 的谈判能力如何？谈判竞技场平台与分析

使用大语言模型进行谈判以及利用行为策略和非理性谈判行为来提高谈判效果的研究。

Feb, 2024

与 LLMS 的谈判：迅速入门、技能差距与推理缺陷

通过观察人类与大型语言模型（LLMs）的对话，本研究基于数据驱动的方法，对 LLMs 的治理和调节进行了归纳性分析，并探讨了非合作性、竞争性情境下的人机交互对人类可能构成的严重威胁以及利用 LLMs 的推理能力存在的不足和可操纵性。此外，研究还揭示了人类在与 LLMs 进行价格谈判时所达成的价格涵盖了广泛范围，指出了人类在有效与 LLMs 互动方面存在的文盲问题。

Nov, 2023

LLM 在谈判对话中的多维能力的系统评估

通过分析 LLMs 在各种对话场景中的多面能力，该研究旨在了解 LLMs 如何推进不同方面的谈判研究，包括设计对话系统、提供教学反馈和扩大数据收集实践。结果表明，虽然 GPT-4 在各种任务上表现出优越性，但在主观评估谈判对话和生成上下文恰当且战略优势的回复方面，模型与人类玩家的相关性较差、往往困难重重。

Feb, 2024

辩论中 LLM 仿真的系统偏差

近期自然语言处理的进展，特别是大型语言模型（LLMs）的出现，为构建精确复制人类行为的计算模拟提供了令人兴奋的可能性。然而，LLMs 是复杂的统计学习器，缺乏直接的演绎规则，因此容易产生意想不到的行为。本研究突出了 LLMs 在模拟人类互动方面的局限性，特别关注 LLMs 在模拟政治辩论方面的能力。我们的发现表明，尽管被指示从特定的政治角度进行辩论，LLM 代理倾向于符合模型固有的社会偏见。这种倾向导致了行为模式的偏离，似乎偏离了人类之间已经确立的社会动力学规律。我们使用了一种自动自我微调方法来强化这些观察结果，该方法使我们能够操纵 LLM 内的偏见，并展示代理随后与改变后的偏见保持一致。这些结果强调了进一步研究的必要性，以开发帮助代理克服这些偏见的方法，是创造更现实模拟的关键一步。

Feb, 2024

以个性为驱动的生成智能体

该研究探讨了大型语言模型（LLMs）利用心理测量值，特别是人格信息，在视频游戏角色开发中的潜力。利用情感计算（AC）系统量化非玩家角色（NPC）的心智，LLM 可以利用该系统的信息通过使用这些数值来生成提示。研究表明 LLM 可以持续地代表给定的人格轮廓，从而增强游戏角色的人类特征。通过重新设计人类检查方法，例如国际人格项目库（IPIP）问卷，来评估 LLM，显示模型可以准确生成与所提供人格有关的内容。结果显示，改进的 LLM，如最新的 GPT-4 模型，可以持续地利用和解释人格以代表行为。

Feb, 2024

互动中的 LLM Agents：大型语言模型互动群体中个性一致性和语言对齐的测量

我们在 GPT-3.5 上通过提示方式进行个性化训练，创建了一组双组群体的 LLM 代理，然后进行个性测试并将代理提交到协作写作任务中，发现不同个性表现出不同程度的人格一致性和语言对话伙伴的语言协调性。我们的研究旨在为更好地理解 LLMs 之间基于对话的交互奠定基础，并强调了在交互环境中塑造稳健且更具人性的 LLM 个性的新方法的需求。

Feb, 2024

大型语言模型中的人格特质

本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性，并讨论了如何对这些模型进行塑造的潜在应用和伦理影响，特别是关于负责任地使用 LLM。

Jul, 2023

评估语言模型代理的方法与谈判

通过协商游戏来共同评估语言模型的性能和对齐情况，发现开源模型目前无法完成这些任务，合作协商游戏具有挑战性，最强大的模型并非总是 “赢家”。

Jan, 2024

LLM 代理人是否表现出社会行为？

大型语言模型在社交科学研究和实际应用中的作用被不断拓展，然而在与人类和其他代理进行交互时，这些模型展现了一系列人类类似的社交行为，同时也存在一些行为差异，因此需要进一步研究和发展评估协议，以直接应用这些模型来模拟人类行为。

Dec, 2023