提问者是谁？用户人设与潜在不一致的机制

Jun, 2024

提问者是谁？用户人设与潜在不一致的机制

Who's asking? User personas and the mechanics of latent misalignment

Asma Ghandeharioun, Ann Yuan, Marius Guerard, Emily Reif, Michael A. Lepori...

TL;DR我们的研究揭示了现象的运作机制，发现模型的安全性调优仍存在潜在的错位能力，尽管已经进行了提高。我们证明了即使模型的生成是安全的，有害内容仍然可以存在于隐藏表示中，并且可以通过从较早层进行解码来提取。我们还发现，模型是否泄露此类内容在很大程度上取决于其与对话对象的知觉，我们将其称为用户人设。实际上，我们发现操纵用户人设甚至比直接控制模型的拒绝更有效地引发有害内容。我们研究了自然语言提示和激活引导作为控制方法，并表明激活引导在绕过安全过滤器方面要更加有效。我们研究了为什么某些人设会破坏模型的保护措施，并发现它们使模型能够对本来危险的查询进行更加慈善的解释。最后，我们展示了我们可以仅根据其操纵向量的几何结构来预测人设对拒绝的影响。

Abstract

Despite investments in improving model safety, studies show that misaligned capabilities remain latent in safety-tuned models. In this work, we shed light on the mechanics of this phenomenon. First, we show that even when model generations are safe, →

model safety hidden representation user persona harmful content activation steering

发现论文，激发创造

关于大型语言模型的操纵能力与基于数据的人物角色

通过数据驱动的协同过滤方法，将用户嵌入到连续矢量空间中并聚类为具有一致观点的群体，以便实现更细致、更准确地理解不同社会群体，并增强模型的可操控性。最后，我们提出了一种有效的方法来将大型语言模型导向特定的个人，并通过学习软提示模型将用户的连续表示映射为虚拟令牌序列，从而使模型能够根据给定用户生成对应的回应。我们的结果表明，相比于一系列基准方法，我们的操控性算法具有更好的性能。

Nov, 2023

助人良侣还是斐然促进者？研究角色对语言模型行为的影响

研究探讨了角色扮演对大型语言模型的影响，通过为七个大型语言模型分配来自 12 个类别的 162 个不同角色扮演来回答来自五个数据集的问题，发现角色扮演会引起模型行为的多样性和泛化性。

Jul, 2024

评估对话系统中的个体偏差：个性化的随机鹦鹉是否更危险？

最近在大型语言模型的突破使它们能够遵循自由格式的指令，其中包括模仿对话中一般或特定人口群体。本文系统研究了 “人物偏见”，将其定义为对不同人物采用敏感有害的对话模型行为的问题。我们将人物偏见分为有害表达和有害协议的偏见，并建立了一个全面的评估框架，以衡量人物偏见的五个方面：冒犯性、毒性，关注度，刻板协议和有害协议。此外，我们建议通过对通用人物数据集进行全面调查，该数据集包含全面的一般和特定模型人物列表，从而全面研究人物偏见。通过对包括 Blender、ChatGPT、Alpaca 和 Vicuna 在内的四个不同模型进行基准测试，我们的研究揭示了这些对话系统中显著的人物偏见。我们的研究结果强调了重新审视人物特点在对话代理程序中的使用的迫切需求，以确保其安全应用。

Oct, 2023

评估大型语言模型在角色导向生成中的偏见

存在困扰个性化驱动文本生成任务的大型语言模型（LLMs）需要生成反映符合特定人物角色可能具有的观点分布的文本。我们定义不协调的人物角色作为具有多个特征的人物角色，在人类调查数据中，其中一个特征会使其其他特征变得不太可能，例如支持增加军费的政治自由主义者。我们发现 LLMs 比一致的人物角色少 9.7％的可控性，有时会生成与其人口统计学相关的刻板立场，而不是目标立场。我们评估的使用人类反馈强化学习（RLHF）微调的模型更具可控性，尤其是与政治自由主义者和女性相关的立场，但呈现出更少多样化的人物角色观点。我们还发现无法从多选意见评估中预测的 LLM 可控性的方差。我们的研究结果显示了在开放式文本生成中评估模型的重要性，因为它可以揭示新的 LLM 观点偏见。此外，这种设置可以揭示我们将模型引导到更丰富和多样化的观点范围的能力。

May, 2024

预测模型调节：风险与策略

本文探讨使用条件生成模型实现大规模语言模型算法的安全性问题及其机遇，其中通过条件设置合理的预测目标可以解决 AI 系统可能带来的潜在风险问题，认为这是大规模语言模型等各种未来模型获取人类水平及略超人类能力的最安全方式。

Feb, 2023

个性化在界限内：与个性化反馈对其进行对齐的大型语言模型的风险分类和策略框架

本文探讨了对大型语言模型进行个性化对齐以确保其符合人类偏好和价值观的挑战和风险，并提出了一个三层次政策框架，以使用户可以体验到个性化对齐的好处，同时在国家和组织范围内控制不安全或不受欢迎的行为。

Mar, 2023

个性化语言模型中的安全性 - 效用权衡探索

大型语言模型（LLMs）在日常应用中变得越来越普遍，因此需要确保它们在各种用户群体之间公正地运行。本文揭示了 LLMs 存在个性化偏差的问题，也就是当 LLMs 根据用户的身份进行个性化设置时，它们的性能会受到影响。我们通过评估 LLMs 在安全性和效用两个维度上的表现来量化个性化偏差。结论发现，不同的 LLMs 在安全性和效用的权衡方面存在显著的性能差异，这取决于用户的身份。最后，我们探讨了一些使用偏好调优和基于提示的防御策略来减轻个性化偏差的方法。

Jun, 2024

对齐之毒

通过实验证明，内容安全问题角度来看，对齐对指令调整模型的性能有负面影响，尤其是在各种推理基准测试中，通过有对齐的答案进行调整会使性能下降 4-33%。

Aug, 2023

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023

明示和隐示的大型语言模型角色生成意见，但无法复制更深层次的认知和偏见

通过以人类为模版的角色对大型语言模型进行提示和回答问题，我们研究了这种模型在主观注释任务和信念生成任务中的表现，结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果，但在表现隐含的偏见方面通常未能达到预期。我们得出结论，大型语言模型缺乏人类思维的内在认知机制，虽然能够捕获人们言语的统计模式，但在复杂社会科学应用中可能限制其效果。

Jun, 2024