偏见根深蒂固：个性化指定的 LLMs 中的隐性推理偏见

Nov, 2023

偏见根深蒂固：个性化指定的 LLMs 中的隐性推理偏见

Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs

Shashank Gupta, Vaishnavi Shrivastava, Ameet Deshpande, Ashwin Kalyan, Peter Clark...

TL;DR大规模语言模型（LLMs）个性化与基本推理任务间的影响及深层偏见的研究。

Abstract

Recent works have showcased the ability of large-scale language models (LLMs) to embody diverse personas in their responses, exemplified by prompts like 'You are Yoda. Explain the Theory of Relativity.' While thi

large-scale language models personas unintended side-effects deep rooted bias reasoning tasks

发现论文，激发创造

明示和隐示的大型语言模型角色生成意见，但无法复制更深层次的认知和偏见

通过以人类为模版的角色对大型语言模型进行提示和回答问题，我们研究了这种模型在主观注释任务和信念生成任务中的表现，结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果，但在表现隐含的偏见方面通常未能达到预期。我们得出结论，大型语言模型缺乏人类思维的内在认知机制，虽然能够捕获人们言语的统计模式，但在复杂社会科学应用中可能限制其效果。

Jun, 2024

LLM 响应中的有意偏见

本研究旨在有意地引入偏见到大型语言模型的响应中，以创建特定的互动媒体角色。我们探索了 Falcon-7b 等开源模型与 Open AI 的 GPT-4 模型之间的差异，并对两个系统的响应进行了一些量化比较。我们发现，GPT-4 的专家混合模型中的防护措施虽然在确保 AI 的整体对齐方面很有用，但在构建具有各种不寻常观点的角色时却具有负面影响。本研究旨在为未来探索大型语言模型中的有意偏见奠定基础，以便这些实践可以应用于创意领域和新型媒体。

Nov, 2023

PHAnToM: 大型语言模型中个性对心智理论推理的影响

通过在大型语言模型中引入个性化的提示来诱导其特定的人格特质，研究发现这种引入显著影响了模型在心智理论推理任务中的推理能力。

Mar, 2024

PersonaLLM：探究 GPT-3.5 表达人格特质和性别差异的能力

本文通过用自我报告问卷（BFI）评估和语言分析等方法，在大型语言模型（LLMs）中针对五个人格特质类型和性别角色实验性地生成了 320 种 LLM 角色，研究 LLM 角色生成的内容是否优点定制的特质，并对其可应用于人工智能会话的前景进行了展望。

May, 2023

评估大型语言模型在角色导向生成中的偏见

存在困扰个性化驱动文本生成任务的大型语言模型（LLMs）需要生成反映符合特定人物角色可能具有的观点分布的文本。我们定义不协调的人物角色作为具有多个特征的人物角色，在人类调查数据中，其中一个特征会使其其他特征变得不太可能，例如支持增加军费的政治自由主义者。我们发现 LLMs 比一致的人物角色少 9.7％的可控性，有时会生成与其人口统计学相关的刻板立场，而不是目标立场。我们评估的使用人类反馈强化学习（RLHF）微调的模型更具可控性，尤其是与政治自由主义者和女性相关的立场，但呈现出更少多样化的人物角色观点。我们还发现无法从多选意见评估中预测的 LLM 可控性的方差。我们的研究结果显示了在开放式文本生成中评估模型的重要性，因为它可以揭示新的 LLM 观点偏见。此外，这种设置可以揭示我们将模型引导到更丰富和多样化的观点范围的能力。

May, 2024

LLM 模型模拟人类心理行为的有限能力：心理测量分析

该研究使用心理测量学的方法，对 OpenAI 的 GPT-3.5 和 GPT-4 模型进行了人格特质测试。结果发现，使用普通人物描述时，GPT-4 的回答表现出与人类相似的心理特点，而使用具体人口统计信息的情况下，两个模型的回答则表现较差，此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。

May, 2024

大型语言模型在调查反应中展现人类般的社交期望偏见

通过使用大五人格调查，我们在各种大型语言模型中发现了一种以前未被发现的社会期望偏差，它会影响模型的评估和得分。这种偏差存在于所有测试的模型中，并且可能在更近期的模型中出现更严重的程度，对于使用心理测验或将模型作为人类参与者的代理存在一定的限制。

May, 2024

大型语言模型能够推断社交媒体用户的心理特质

利用大型语言模型（LLMs）如 ChatGPT 从用户的数字足迹中推断个体的心理特征，研究发现 GPT-3.5 和 GPT-4 可以在零样本学习情景下从用户的 Facebook 状态更新中推导出五大人格特征，但结果显示推断得分与自我报告的特征分数之间的平均相关性为 r = .29（范围 =[.22, .33]），并且推断的人格特征存在性别和年龄方面的偏差。

Sep, 2023

上下文中的模拟揭示了大型语言模型的实力和偏见

研究表明，LLMs 能够在上下文中扮演不同的角色，这种扮演可以揭示它们的潜在优势和偏见。

May, 2023

语言模型中出现的类人直觉行为和推理偏见 —— 以及 GPT-4 中的消失

本研究通过使用心理学方法，展示了大型语言模型（LLMs），尤其是 GPT-3，表现出类似于人类直觉的行为和认知错误，而具有更高认知能力的 LLMs，特别是 ChatGPT 和 GPT-4，学会避免这些错误，并表现出超理性的方式；此外，我们还探究了直觉决策倾向的稳定程度。

Jun, 2023