大型语言模型的个性化引导：通过双向偏好优化实现多功能引导向量

May, 2024

大型语言模型的个性化引导：通过双向偏好优化实现多功能引导向量

Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization

PDF

Yuanpu Cao, Tianrong Zhang, Bochuan Cao, Ziyi Yin, Lu Lin...

TL;DR通过双向偏好优化来产生更有效的转向向量，从而在多种开放生成任务中实现个性化控制，并在关键对齐场景中展示出卓越的转向效果以及多个向量同时应用时的协同效益。

Abstract

Researchers have been studying approaches to steer the behavior of Large Language Models (LLMs) and build personalized LLMs tailored for various applications. While fine-tuning seems to be a direct solution, it requires substantial computational resources and may significantly affect the utility of the original LLM. Recent endeavors have introduced more ligh

large language models steering vectors personalized control alignment-concerning scenarios transferability

发现论文，激发创造

用于引导生成式大型语言模型的风格向量

本研究通过在文本生成过程中向隐藏层的激活添加风格向量，探索将大型语言模型 (LLMs) 的输出引导到特定风格 (如情感、情绪或写作风格) 的策略。通过一系列实验，我们展示了使用这种风格向量进行激活工程对生成文本的风格产生影响的有效性和可调节性，使其与提示工程相区别，从而促进了更具适应性和有效性的 AI 增强交互系统的发展。

Feb, 2024

从预训练语言模型中提取潜在的操纵向量

本研究提出一种新的控制文本生成方式，在不进行优化的情况下直接从预训练的语言模型解码器提取潜在向量。实验证明存在可用于控制的方向向量，并且可以用于 YELP 情感基准测试和文本相似性基准测试，反映句子的相似性。

May, 2022

关于大型语言模型的操纵能力与基于数据的人物角色

通过数据驱动的协同过滤方法，将用户嵌入到连续矢量空间中并聚类为具有一致观点的群体，以便实现更细致、更准确地理解不同社会群体，并增强模型的可操控性。最后，我们提出了一种有效的方法来将大型语言模型导向特定的个人，并通过学习软提示模型将用户的连续表示映射为虚拟令牌序列，从而使模型能够根据给定用户生成对应的回应。我们的结果表明，相比于一系列基准方法，我们的操控性算法具有更好的性能。

Nov, 2023

评估大型语言模型在角色导向生成中的偏见

存在困扰个性化驱动文本生成任务的大型语言模型（LLMs）需要生成反映符合特定人物角色可能具有的观点分布的文本。我们定义不协调的人物角色作为具有多个特征的人物角色，在人类调查数据中，其中一个特征会使其其他特征变得不太可能，例如支持增加军费的政治自由主义者。我们发现 LLMs 比一致的人物角色少 9.7％的可控性，有时会生成与其人口统计学相关的刻板立场，而不是目标立场。我们评估的使用人类反馈强化学习（RLHF）微调的模型更具可控性，尤其是与政治自由主义者和女性相关的立场，但呈现出更少多样化的人物角色观点。我们还发现无法从多选意见评估中预测的 LLM 可控性的方差。我们的研究结果显示了在开放式文本生成中评估模型的重要性，因为它可以揭示新的 LLM 观点偏见。此外，这种设置可以揭示我们将模型引导到更丰富和多样化的观点范围的能力。

May, 2024

用均值居中改进语言模型中的激活引导

通过应用均值中心化的思想，我们发现将与目标数据集相关的激活平均值减去所有训练激活的均值，可以得到有效的转向向量，这在广泛的上下文中可以轻松改善激活转向的有效性。

Dec, 2023

激活增加：不经优化的引导语言模型

控制大型语言模型行为的问题已成为紧迫的开放问题。在本文中，我们提出了一种称为 Activation Addition (ActAdd) 的方法，通过在推理过程中修改激活来可预测地改变模型行为，并展示了其在 GPT-2 上的应用，以及其与微调或强化学习从人类反馈中得到控制的方法相比所需的计算量和实施工作的差异。

Aug, 2023

理解与人类反馈一致性的学习动态

通过理论分析学习动态，我们提供了对人类偏好对齐的理论观察，揭示了优化算法可能优先考虑具有更高偏好区分度的行为，并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。

Mar, 2024

后门激活攻击：使用激活引导实施对大型语言模型的攻击以达到安全对齐

通过向大型语言模型注入木马激活向量，我们提出了一种名为后门激活攻击的新型攻击框架，使得模型在推理时可以被激活并朝着攻击者所期望的行为方向进行操纵，该方法在主要的对齐任务上表现出高度的有效性，并且几乎不会给攻击效率增加任何开销，同时讨论了对抗此类激活攻击的潜在对策。

Nov, 2023

扩展激活引导至广泛技能和多重行为

目前的大型语言模型具有危险的能力，这些能力在将来可能变得更加问题。激活引导技术可以用来减少这些能力带来的风险。本文通过调查激活引导在广泛技能和多种行为方面的功效，首先比较了减少整体编码能力和 Python 特定能力对绩效的影响，发现调整更广泛的技能与调整更狭窄的技能具有竞争力；其次，我们引导模型变得更加短视和追逐财富等其他行为。在我们的实验中，将多种行为的调整向量合并为一个调整向量的方法基本上不成功。另一方面，同时在模型的不同位置插入个别的调整向量是有前景的。

Mar, 2024

大型语言模型人类偏好学习综述

本综述从以偏好为中心的角度回顾了探索大型语言模型（LLMs）的人类偏好学习的进展，包括偏好反馈的来源和格式，偏好信号的建模和使用，以及对齐 LLMs 的评估。

Jun, 2024