辩论中 LLM 仿真的系统偏差

Feb, 2024

Systematic Biases in LLM Simulations of Debates

Amir Taubenfeld, Yaniv Dover, Roi Reichart, Ariel Goldstein

TL;DR近期自然语言处理的进展，特别是大型语言模型（LLMs）的出现，为构建精确复制人类行为的计算模拟提供了令人兴奋的可能性。然而，LLMs 是复杂的统计学习器，缺乏直接的演绎规则，因此容易产生意想不到的行为。本研究突出了 LLMs 在模拟人类互动方面的局限性，特别关注 LLMs 在模拟政治辩论方面的能力。我们的发现表明，尽管被指示从特定的政治角度进行辩论，LLM 代理倾向于符合模型固有的社会偏见。这种倾向导致了行为模式的偏离，似乎偏离了人类之间已经确立的社会动力学规律。我们使用了一种自动自我微调方法来强化这些观察结果，该方法使我们能够操纵 LLM 内的偏见，并展示代理随后与改变后的偏见保持一致。这些结果强调了进一步研究的必要性，以开发帮助代理克服这些偏见的方法，是创造更现实模拟的关键一步。

Abstract

Recent advancements in natural language processing, especially the emergence of large language models (LLMs), have opened exciting possibilities for constructing computational simulations designed to replicate

natural language processing large language models human behavior llm limitations political debates

发现论文，激发创造

大型语言模型在与人类辩论的局限性

当前的研究论文测试了大型语言模型（LLMs）的可行性，作为人工代理人参与社会学实验中的对话活动，揭示了 LLMs 在辩论中的限制，以及其对人类的影响和能力。

Feb, 2024

LLMs 的高风险决策中的认知偏差

我们介绍了 BiasBuster，这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集，我们测试了各种减轻偏见的策略，并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见，而无需为每种偏见类型手动制作示例。

Feb, 2024

LLM 是否表现出类似于人类的回答偏向？一项调查设计案例研究

大型语言模型在代表人类进行主观标签任务方面的潜力和限制

Nov, 2023

基于 LLM 代理的网络观点动力学模拟

准确模拟人的观点动态对于理解各种社会现象至关重要，包括极化和误信息传播。我们提出了一种基于大型语言模型的人口多智能体模拟观点动态的新方法。我们的发现揭示出语言模型智能体存在对准确信息的固有偏差，导致在科学现实中产生共识。然而，该偏差限制了模拟对气候变化等问题持有抵制观点的个体。在通过启动工程引入确认偏见后，我们观察到观点分裂的情况与现有的多智能体研究一致。这些见解突显了在该领域中大型语言模型智能体的前景和局限，并提出了未来发展路径：通过与真实世界的话语相结合，完善语言模型，以更好地模拟人类信念的演变。

Nov, 2023

辩论评估中大型语言模型的实证分析

使用 GPT-3.5 和 GPT-4 等高级大型语言模型对辩论评估进行研究，发现 LLMs 在评估上的表现超过人类，并超过基于大量数据集微调的最先进方法。同时，研究了 LLMs 中存在的偏见，包括位置偏见、词汇偏见和顺序偏见，这可能会影响它们的评价判断。我们的发现表明，无论是 GPT-3.5 还是 GPT-4 都存在一致偏向于第二个候选回答的偏见，这归因于提示设计。此外，在 GPT-3.5 和 GPT-4 中也存在词汇偏见，特别是当含义具有数字或顺序的标签集时，强调在提示设计中需谨慎选择标签的表述。此外，我们的分析表明，这两个模型倾向于认为辩论的结束方是获胜方，暗示存在讨论末尾的偏见。

May, 2024

LLM 代理人是否表现出社会行为？

大型语言模型在社交科学研究和实际应用中的作用被不断拓展，然而在与人类和其他代理进行交互时，这些模型展现了一系列人类类似的社交行为，同时也存在一些行为差异，因此需要进一步研究和发展评估协议，以直接应用这些模型来模拟人类行为。

Dec, 2023

欺骗以启蒙：诱导 LLMs 自省以增强偏见检测和缓解

大型语言模型（LLMs）嵌入了复杂的偏见和刻板印象，可能导致有害的用户体验和社会后果，而模型本身通常没有意识到这一点。本文强调了为 LLMs 配备更好的自我反思和偏见识别机制的重要性。我们的实验表明，通过告知 LLMs 它们生成的内容不代表自己的观点，并对其偏见进行质疑，可以提高 LLMs 识别和解决偏见的能力。这种改进归因于 LLMs 的内部注意力机制和潜在的内部敏感性政策。基于这些发现，我们提出了一个减少 LLMs 输出偏见的新方法。该方法涉及将 LLMs 置于多角色情景中，扮演不同角色，在每个辩论循环的最后担任公正裁判的角色，以暴露偏见。采用排名评分机制来量化偏见水平，从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法，为追求更具伦理 AI 系统的努力作出了有价值的贡献。

Apr, 2024

评估 LLM 代理人群体动态与人类群体动态：基于党派群体智慧的案例研究

本研究探讨了大型语言模型（LLMs）在模拟人类群体动态方面的潜力，特别是在政治上充满挑战性的背景下。我们使用 LLMs 复制了党派群体智慧现象，扮演民主党和共和党角色进行结构化互动，评估代理人的回应如何通过社会影响来演变。我们的主要发现表明，扮演具体人物并且没有链式思考的 LLM 代理人与人类行为紧密一致，而有链式思考则损害了一致性。然而，将明确的偏见纳入代理人提示并不一定增强党派群体的智慧。此外，用人类数据对 LLMs 进行微调显示出实现类似人类行为的潜力，但存在过度拟合特定行为的风险。这些发现展示了在模拟人类群体现象时使用 LLM 代理人的潜力和局限性。

Nov, 2023

新闻去偏见的对话 LLMs 的陷阱

本研究探讨新闻编辑中的去偏见化问题，并评估了对话式大型语言模型在此任务中的有效性。我们设计了一份适用于新闻编辑的评估清单，使用公开可得的媒体偏见数据集的子集获取了三种流行的对话式模型生成的文字，并按照设计的清单对这些文字进行了评估。此外，我们还将这些模型作为评估者，用于检查去偏见模型输出的质量。我们的研究结果表明，没有一个对话式大型语言模型能够完美地进行去偏见化。值得注意的是，一些模型，包括 ChatGPT，引入了不必要的修改，可能会影响作者的风格并产生错误信息。最后，我们还表明这些模型在评估去偏见输出的质量方面不如领域专家表现出色。

Apr, 2024

诱导政治偏见使语言模型预测党派对争议的反应

通过使用大规模语言模型（LLMs）来准确解读和预测政治偏见在社交媒体平台上充斥的政治性讨论，本研究创新性地采用了一个指导调整的 LLM，以反映一系列政治意识形态。我们提出了一个综合的分析框架，包括党派偏见差异评估和党派倾向预测，以评估模型在立场、情绪和道德基础等方面与现实政治意识形态保持一致。研究发现模型在捕捉情绪和道德细微差别方面的有效性，但在立场检测方面存在一些挑战，突显了 NLP 工具在政治敏感环境中精细化和改进的复杂性和潜力。此研究通过展示 LLMs 中细致的政治理解的可行性和重要性，特别适用于需要敏锐意识到政治偏见的应用，为该领域做出了重要贡献。

Nov, 2023