评估大型语言模型在角色导向生成中的偏见

ACLMay, 2024

评估大型语言模型在角色导向生成中的偏见

Evaluating Large Language Model Biases in Persona-Steered Generation

Andy Liu, Mona Diab, Daniel Fried

TL;DR存在困扰个性化驱动文本生成任务的大型语言模型（LLMs）需要生成反映符合特定人物角色可能具有的观点分布的文本。我们定义不协调的人物角色作为具有多个特征的人物角色，在人类调查数据中，其中一个特征会使其其他特征变得不太可能，例如支持增加军费的政治自由主义者。我们发现 LLMs 比一致的人物角色少 9.7％的可控性，有时会生成与其人口统计学相关的刻板立场，而不是目标立场。我们评估的使用人类反馈强化学习（RLHF）微调的模型更具可控性，尤其是与政治自由主义者和女性相关的立场，但呈现出更少多样化的人物角色观点。我们还发现无法从多选意见评估中预测的 LLM 可控性的方差。我们的研究结果显示了在开放式文本生成中评估模型的重要性，因为它可以揭示新的 LLM 观点偏见。此外，这种设置可以揭示我们将模型引导到更丰富和多样化的观点范围的能力。

Abstract

The task of persona-steered text generation requires large language models (LLMs) to generate text that reflects the distribution of views that an individual fitting a persona could have. People have multifaceted

persona-steered text generation large language models incongruous persona rlhf llm opinion biases

发现论文，激发创造

关于大型语言模型的操纵能力与基于数据的人物角色

通过数据驱动的协同过滤方法，将用户嵌入到连续矢量空间中并聚类为具有一致观点的群体，以便实现更细致、更准确地理解不同社会群体，并增强模型的可操控性。最后，我们提出了一种有效的方法来将大型语言模型导向特定的个人，并通过学习软提示模型将用户的连续表示映射为虚拟令牌序列，从而使模型能够根据给定用户生成对应的回应。我们的结果表明，相比于一系列基准方法，我们的操控性算法具有更好的性能。

Nov, 2023

明示和隐示的大型语言模型角色生成意见，但无法复制更深层次的认知和偏见

通过以人类为模版的角色对大型语言模型进行提示和回答问题，我们研究了这种模型在主观注释任务和信念生成任务中的表现，结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果，但在表现隐含的偏见方面通常未能达到预期。我们得出结论，大型语言模型缺乏人类思维的内在认知机制，虽然能够捕获人们言语的统计模式，但在复杂社会科学应用中可能限制其效果。

Jun, 2024

大型语言模型在调查反应中展现人类般的社交期望偏见

通过使用大五人格调查，我们在各种大型语言模型中发现了一种以前未被发现的社会期望偏差，它会影响模型的评估和得分。这种偏差存在于所有测试的模型中，并且可能在更近期的模型中出现更严重的程度，对于使用心理测验或将模型作为人类参与者的代理存在一定的限制。

May, 2024

偏见根深蒂固：个性化指定的 LLMs 中的隐性推理偏见

大规模语言模型（LLMs）个性化与基本推理任务间的影响及深层偏见的研究。

Nov, 2023

LLM 响应中的有意偏见

本研究旨在有意地引入偏见到大型语言模型的响应中，以创建特定的互动媒体角色。我们探索了 Falcon-7b 等开源模型与 Open AI 的 GPT-4 模型之间的差异，并对两个系统的响应进行了一些量化比较。我们发现，GPT-4 的专家混合模型中的防护措施虽然在确保 AI 的整体对齐方面很有用，但在构建具有各种不寻常观点的角色时却具有负面影响。本研究旨在为未来探索大型语言模型中的有意偏见奠定基础，以便这些实践可以应用于创意领域和新型媒体。

Nov, 2023

大型语言模型中的包容性：科学摘要中的个性特征和性别偏见

评估三种主要的大型语言模型（Claude 3 Opus、Mistral AI Large 和 Gemini 1.5 Flash）在科学摘要文本生成任务中的表现，发现尽管这些模型的生成文本通常与人类创作的内容非常相似，但在风格上存在显著的性别偏见，这研究强调了开发能够维持多样写作风格以促进学术交流包容性的重要性。

Jun, 2024

关于使用大型语言模型创建合成人物时存在的偏见的担忧

该研究通过使用生动事例来展示黑盒大型语言模型中的偏见存在和调控方法，探索了合成人设在人机交互研究中的益处、不足和伦理考虑，强调在利用这些模型进行合成人设创建前的全面测试的必要性。

May, 2024

大型语言模型中的人格特质

本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性，并讨论了如何对这些模型进行塑造的潜在应用和伦理影响，特别是关于负责任地使用 LLM。

Jul, 2023

大型语言模型的个性化引导：通过双向偏好优化实现多功能引导向量

通过双向偏好优化来产生更有效的转向向量，从而在多种开放生成任务中实现个性化控制，并在关键对齐场景中展示出卓越的转向效果以及多个向量同时应用时的协同效益。

May, 2024

PersonaLLM：探究 GPT-3.5 表达人格特质和性别差异的能力

本文通过用自我报告问卷（BFI）评估和语言分析等方法，在大型语言模型（LLMs）中针对五个人格特质类型和性别角色实验性地生成了 320 种 LLM 角色，研究 LLM 角色生成的内容是否优点定制的特质，并对其可应用于人工智能会话的前景进行了展望。

May, 2023