激活增加：不经优化的引导语言模型

Aug, 2023

激活增加：不经优化的引导语言模型

Activation Addition: Steering Language Models Without Optimization

Alex Turner, Lisa Thiergart, David Udell, Gavin Leech, Ulisse Mini...

TL;DR控制大型语言模型行为的问题已成为紧迫的开放问题。在本文中，我们提出了一种称为 Activation Addition (ActAdd) 的方法，通过在推理过程中修改激活来可预测地改变模型行为，并展示了其在 GPT-2 上的应用，以及其与微调或强化学习从人类反馈中得到控制的方法相比所需的计算量和实施工作的差异。

Abstract

Reliably controlling the behavior of large language models (LLMs) is a pressing open problem. Existing methods include supervised finetuning, reinforcement learning from human feedback (RLHF), prompt engineering and guided decoding. We instead investigate →

large language models activation engineering steering vectors predictable alter model behavior inference-time approach

发现论文，激发创造

通过对比激活添加驾驭 Llama 2

介绍了一种名为 Contrastive Activation Addition（CAA）的创新方法，通过在正向传递过程中修改激活来控制语言模型的行为；通过计算 “驱动向量” 来精确控制目标行为的程度，并通过在用户提示后的所有标记位置添加这些驱动向量，CAA 显著改变模型行为，胜过传统的微调和少数样本提示方法，并对大型语言模型（LLMs）中的高级概念的表示提供了深入洞察。

Dec, 2023

后门激活攻击：使用激活引导实施对大型语言模型的攻击以达到安全对齐

通过向大型语言模型注入木马激活向量，我们提出了一种名为后门激活攻击的新型攻击框架，使得模型在推理时可以被激活并朝着攻击者所期望的行为方向进行操纵，该方法在主要的对齐任务上表现出高度的有效性，并且几乎不会给攻击效率增加任何开销，同时讨论了对抗此类激活攻击的潜在对策。

Nov, 2023

用均值居中改进语言模型中的激活引导

通过应用均值中心化的思想，我们发现将与目标数据集相关的激活平均值减去所有训练激活的均值，可以得到有效的转向向量，这在广泛的上下文中可以轻松改善激活转向的有效性。

Dec, 2023

用于引导生成式大型语言模型的风格向量

本研究通过在文本生成过程中向隐藏层的激活添加风格向量，探索将大型语言模型 (LLMs) 的输出引导到特定风格 (如情感、情绪或写作风格) 的策略。通过一系列实验，我们展示了使用这种风格向量进行激活工程对生成文本的风格产生影响的有效性和可调节性，使其与提示工程相区别，从而促进了更具适应性和有效性的 AI 增强交互系统的发展。

Feb, 2024

代码语言模型中强化的类型预测激活控制

通过激活控制技术，我们可以提高编程预训练模型的鲁棒性，使其在语法上更加灵活，进而提高类型预测的准确性，并揭示了预训练模型可能在不同编程语言之间进行类型知识迁移的可能性。

Apr, 2024

大型语言模型的个性化引导：通过双向偏好优化实现多功能引导向量

通过双向偏好优化来产生更有效的转向向量，从而在多种开放生成任务中实现个性化控制，并在关键对齐场景中展示出卓越的转向效果以及多个向量同时应用时的协同效益。

May, 2024

扩展激活引导至广泛技能和多重行为

目前的大型语言模型具有危险的能力，这些能力在将来可能变得更加问题。激活引导技术可以用来减少这些能力带来的风险。本文通过调查激活引导在广泛技能和多种行为方面的功效，首先比较了减少整体编码能力和 Python 特定能力对绩效的影响，发现调整更广泛的技能与调整更狭窄的技能具有竞争力；其次，我们引导模型变得更加短视和追逐财富等其他行为。在我们的实验中，将多种行为的调整向量合并为一个调整向量的方法基本上不成功。另一方面，同时在模型的不同位置插入个别的调整向量是有前景的。

Mar, 2024

自适应激活导向：无需调整的多种幻觉类别 LLM 真实性改进方法

使用适应性激活引导（ACT）方法，可以通过调整大型语言模型（LLMs）的激活方向，在推理过程中提高生成内容的真实性。ACT 方法通过利用多样化的引导向量并自适应地调整引导强度，有效应对各种类型的虚构现象。在多种模型中附加应用 ACT 后，如 LLaMA，LLaMA2，Alpaca，Vicuna 和 LLaMA2-Chat，其真实性显著提高（分别提升 142％，24％，36％，28％和 19％）。此外，我们还验证了 ACT 在更大规模模型（13B，33B，65B）上的可扩展性，突显 ACT 对大型语言模型的适应性。

May, 2024

利用动态激活组合对大型语言模型进行多属性调控

本研究评估了不同的激活导向策略，并提出了动态激活组合方法，以确保在生成过程中实现高度的条件控制同时最小化对生成流畅性的影响。

Jun, 2024

从预训练语言模型中提取潜在的操纵向量

本研究提出一种新的控制文本生成方式，在不进行优化的情况下直接从预训练的语言模型解码器提取潜在向量。实验证明存在可用于控制的方向向量，并且可以用于 YELP 情感基准测试和文本相似性基准测试，反映句子的相似性。

May, 2022