通过对比激活添加驾驭 Llama 2

Dec, 2023

Steering Llama 2 via Contrastive Activation Addition

Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan Hubinger...

TL;DR介绍了一种名为 Contrastive Activation Addition（CAA）的创新方法，通过在正向传递过程中修改激活来控制语言模型的行为；通过计算 “驱动向量” 来精确控制目标行为的程度，并通过在用户提示后的所有标记位置添加这些驱动向量，CAA 显著改变模型行为，胜过传统的微调和少数样本提示方法，并对大型语言模型（LLMs）中的高级概念的表示提供了深入洞察。

Abstract

We introduce contrastive activation addition (CAA), an innovative method for steering language models by modifying activations during their forward passes. CAA computes ``steering vectors'' by averaging the diffe

contrastive activation addition steering language models residual stream activations factual versus hallucinatory responses model behavior

发现论文，激发创造

激活增加：不经优化的引导语言模型

控制大型语言模型行为的问题已成为紧迫的开放问题。在本文中，我们提出了一种称为 Activation Addition (ActAdd) 的方法，通过在推理过程中修改激活来可预测地改变模型行为，并展示了其在 GPT-2 上的应用，以及其与微调或强化学习从人类反馈中得到控制的方法相比所需的计算量和实施工作的差异。

Aug, 2023

自适应激活导向：无需调整的多种幻觉类别 LLM 真实性改进方法

使用适应性激活引导（ACT）方法，可以通过调整大型语言模型（LLMs）的激活方向，在推理过程中提高生成内容的真实性。ACT 方法通过利用多样化的引导向量并自适应地调整引导强度，有效应对各种类型的虚构现象。在多种模型中附加应用 ACT 后，如 LLaMA，LLaMA2，Alpaca，Vicuna 和 LLaMA2-Chat，其真实性显著提高（分别提升 142％，24％，36％，28％和 19％）。此外，我们还验证了 ACT 在更大规模模型（13B，33B，65B）上的可扩展性，突显 ACT 对大型语言模型的适应性。

May, 2024

用均值居中改进语言模型中的激活引导

通过应用均值中心化的思想，我们发现将与目标数据集相关的激活平均值减去所有训练激活的均值，可以得到有效的转向向量，这在广泛的上下文中可以轻松改善激活转向的有效性。

Dec, 2023

后门激活攻击：使用激活引导实施对大型语言模型的攻击以达到安全对齐

通过向大型语言模型注入木马激活向量，我们提出了一种名为后门激活攻击的新型攻击框架，使得模型在推理时可以被激活并朝着攻击者所期望的行为方向进行操纵，该方法在主要的对齐任务上表现出高度的有效性，并且几乎不会给攻击效率增加任何开销，同时讨论了对抗此类激活攻击的潜在对策。

Nov, 2023

通过基于激活的置信度校准和引导解码增强语言模型的真实性

在本文中，我们首先提出一种基于激活的校准方法 ActCab，它在语言模型的最后一层激活上训练一个线性层，能更好地捕捉知识的表征。在 ActCab 的基础上，我们进一步提出了一种以置信度为指导的解码策略 CoDec，以从语言模型中得到置信度高的真实答案。通过在五个热门问答基准上进行评估，ActCab 在校准性能方面优于所有竞争基准，例如平均期望校准误差减少了最高 39%。进一步对 CoDec 进行的实验证明，在挑战性问答数据集（如 TruthfulQA）上提升了几个语言模型的真实性，突显了置信度信号在增强真实性方面的价值。

Jun, 2024

大型语言模型的个性化引导：通过双向偏好优化实现多功能引导向量

通过双向偏好优化来产生更有效的转向向量，从而在多种开放生成任务中实现个性化控制，并在关键对齐场景中展示出卓越的转向效果以及多个向量同时应用时的协同效益。

May, 2024

用于引导生成式大型语言模型的风格向量

本研究通过在文本生成过程中向隐藏层的激活添加风格向量，探索将大型语言模型 (LLMs) 的输出引导到特定风格 (如情感、情绪或写作风格) 的策略。通过一系列实验，我们展示了使用这种风格向量进行激活工程对生成文本的风格产生影响的有效性和可调节性，使其与提示工程相区别，从而促进了更具适应性和有效性的 AI 增强交互系统的发展。

Feb, 2024

代码语言模型中强化的类型预测激活控制

通过激活控制技术，我们可以提高编程预训练模型的鲁棒性，使其在语法上更加灵活，进而提高类型预测的准确性，并揭示了预训练模型可能在不同编程语言之间进行类型知识迁移的可能性。

Apr, 2024

引导语言生成：利用对比专家指导和负面提示进行连贯多样的合成数据生成

通过对比专家指导和利用现有真实和合成示例实施对抗，STEER 通过嵌入重新定位来解决一致性和多样性问题，从而在生成合成数据时取得了更好的平衡。

Aug, 2023

扩展激活引导至广泛技能和多重行为

目前的大型语言模型具有危险的能力，这些能力在将来可能变得更加问题。激活引导技术可以用来减少这些能力带来的风险。本文通过调查激活引导在广泛技能和多种行为方面的功效，首先比较了减少整体编码能力和 Python 特定能力对绩效的影响，发现调整更广泛的技能与调整更狭窄的技能具有竞争力；其次，我们引导模型变得更加短视和追逐财富等其他行为。在我们的实验中，将多种行为的调整向量合并为一个调整向量的方法基本上不成功。另一方面，同时在模型的不同位置插入个别的调整向量是有前景的。

Mar, 2024