大众的领袖？评估大型语言模型在狼人游戏中的舆论领导力

Apr, 2024

大众的领袖？评估大型语言模型在狼人游戏中的舆论领导力

Helmsman of the Masses? Evaluate the Opinion Leadership of Large Language Models in the Werewolf Game

Silin Du, Xiaowei Zhang

TL;DR基于狼人游戏的模拟平台，评估大型语言模型的本领领导力，并开发了两个新的度量标准，分别衡量意见领袖的可信度和对他人决策的影响力。结果表明，狼人游戏适合评估大型语言模型的意见领袖能力。

Abstract

large language models (LLMs) have exhibited memorable strategic behaviors in social deductive games. However, the significance of opinion leadership exhibited by LLM-based agents has been overlooked, which is cru

large language models opinion leadership werewolf game sheriff role opinion leader metrics

发现论文，激发创造

探索大型语言模型用于沟通游戏：狼人杀的实证研究

我们提出了一个无需调整参数的框架，利用过去的沟通和经验改进大型语言模型在沟通游戏中的表现，通过在狼人游戏中的实证研究，证明该框架可以有效地进行游戏，而且在实验中产生了策略性行为，显示出在沟通游戏和相关领域中让大型语言模型参与的前景。

Sep, 2023

使用强化学习的语言智能体在狼人杀游戏中进行战略性对战

基于强化学习的大语言模型（LLMs）和策略性语言智能体，通过使用 LLM 推理潜在欺诈行为和生成策略多样化动作的候选集，结合强化学习策略进行决策训练，取得了多样的突现策略，战胜其他 LLM 智能体并对抗人类对手在狼人游戏中保持强大。

Oct, 2023

评估 LLM 代理人群体动态与人类群体动态：基于党派群体智慧的案例研究

本研究探讨了大型语言模型（LLMs）在模拟人类群体动态方面的潜力，特别是在政治上充满挑战性的背景下。我们使用 LLMs 复制了党派群体智慧现象，扮演民主党和共和党角色进行结构化互动，评估代理人的回应如何通过社会影响来演变。我们的主要发现表明，扮演具体人物并且没有链式思考的 LLM 代理人与人类行为紧密一致，而有链式思考则损害了一致性。然而，将明确的偏见纳入代理人提示并不一定增强党派群体的智慧。此外，用人类数据对 LLMs 进行微调显示出实现类似人类行为的潜力，但存在过度拟合特定行为的风险。这些发现展示了在模拟人类群体现象时使用 LLM 代理人的潜力和局限性。

Nov, 2023

提升大规模语言模型在狼人杀游戏中的推理能力

本文提出了一种创新的框架，将大型语言模型（LLMs）与外部思考器模块相结合，以增强基于 LLM 的代理机构的推理能力。该框架形成了一个推理层次结构，其中 LLMs 处理直觉性的 System-1 任务，而思考器专注于需要复杂逻辑分析和领域特定知识的认知 System-2 任务。实验证明了该框架在演绎推理、语音生成和在线游戏评估方面的有效性。此外，我们通过与思考器集成来调优 6B LLM，以超越 GPT4。本文还贡献了迄今为止最大的社交推理游戏数据集。

Feb, 2024

关于大型语言模型中多智能体系统中观点动态的原则

我们研究互动的大型语言模型（LLMs）群体内舆论的演变。我们发现这些模型的交流受到几个倾向性因素的影响，分别是追求其他模型意见的共识、在资金配置时展现谨慎和考虑伦理问题。我们还发现这些偏见受到意见改变缺乏具有说服力的理由、愿意参与讨论的程度以及资源分配的分布的影响。此外，这些偏见之间的紧张关系可能导致对具有负面含义的项目的资金支持继续存在。通过自由形成意见与从三个资源分配选项中选择意见相比，我们发现在互动后，LLM 的意见分布更加多样化，而在后一种情况下，通常会达成共识或极化。当代理人了解过去的意见时，他们会努力保持一致，并产生更多样的更新规则。我们使用 Llama 3 LLM 进行了研究。

Jun, 2024

基于 LLM 代理的网络观点动力学模拟

准确模拟人的观点动态对于理解各种社会现象至关重要，包括极化和误信息传播。我们提出了一种基于大型语言模型的人口多智能体模拟观点动态的新方法。我们的发现揭示出语言模型智能体存在对准确信息的固有偏差，导致在科学现实中产生共识。然而，该偏差限制了模拟对气候变化等问题持有抵制观点的个体。在通过启动工程引入确认偏见后，我们观察到观点分裂的情况与现有的多智能体研究一致。这些见解突显了在该领域中大型语言模型智能体的前景和局限，并提出了未来发展路径：通过与真实世界的话语相结合，完善语言模型，以更好地模拟人类信念的演变。

Nov, 2023

语言模型反映了谁的观点？

通过 OpinionsQA 数据集，本研究提出了一种量化框架，调查语言模型中体现的观点与美国 60 个人口群体的观点的一致性，在包括堕胎和自动化在内的话题上，我们发现当前的语言模型与 US 人口集体观点之间存在相当大的不匹配，即使是明确定向于特定人口群体也是如此。

Mar, 2023

大型语言模型在与人类辩论的局限性

当前的研究论文测试了大型语言模型（LLMs）的可行性，作为人工代理人参与社会学实验中的对话活动，揭示了 LLMs 在辩论中的限制，以及其对人类的影响和能力。

Feb, 2024

将语言模型与用户意见对齐

通过挖掘公众意见调查的数据，结合用户观点、人口统计学和意识形态信息来对 LLMs 进行定位，从而实现更好地预测各种话题下的公众观点，同时发现利用个体用户的相关过往意见可以提高预测准确性。

May, 2023

超越人口统计学：利用人类信念网络对饰演角色的基于 LLM 的代理进行对齐

通过整合从实证人类信念网络中提取的信息，本研究评估了如何改进基于人类行为的大型语言模型（LLM）与人类行为的一致性，结果表明在模拟和理解社会信念分布模式的工作中，将 LLM 代理与单一信念进行关联会显著提高对相关主题的一致性。

Jun, 2024