用均值居中改进语言模型中的激活引导

Dec, 2023

用均值居中改进语言模型中的激活引导

Improving Activation Steering in Language Models with Mean-Centring

Ole Jorgensen, Dylan Cope, Nandi Schoots, Murray Shanahan

TL;DR通过应用均值中心化的思想，我们发现将与目标数据集相关的激活平均值减去所有训练激活的均值，可以得到有效的转向向量，这在广泛的上下文中可以轻松改善激活转向的有效性。

Abstract

Recent work in activation steering has demonstrated the potential to better control the outputs of large language models (LLMs), but it involves finding →

activation steering large language models steering vectors mean-centring natural language tasks

发现论文，激发创造

从预训练语言模型中提取潜在的操纵向量

本研究提出一种新的控制文本生成方式，在不进行优化的情况下直接从预训练的语言模型解码器提取潜在向量。实验证明存在可用于控制的方向向量，并且可以用于 YELP 情感基准测试和文本相似性基准测试，反映句子的相似性。

May, 2022

用于引导生成式大型语言模型的风格向量

本研究通过在文本生成过程中向隐藏层的激活添加风格向量，探索将大型语言模型 (LLMs) 的输出引导到特定风格 (如情感、情绪或写作风格) 的策略。通过一系列实验，我们展示了使用这种风格向量进行激活工程对生成文本的风格产生影响的有效性和可调节性，使其与提示工程相区别，从而促进了更具适应性和有效性的 AI 增强交互系统的发展。

Feb, 2024

大型语言模型的个性化引导：通过双向偏好优化实现多功能引导向量

通过双向偏好优化来产生更有效的转向向量，从而在多种开放生成任务中实现个性化控制，并在关键对齐场景中展示出卓越的转向效果以及多个向量同时应用时的协同效益。

May, 2024

激活增加：不经优化的引导语言模型

控制大型语言模型行为的问题已成为紧迫的开放问题。在本文中，我们提出了一种称为 Activation Addition (ActAdd) 的方法，通过在推理过程中修改激活来可预测地改变模型行为，并展示了其在 GPT-2 上的应用，以及其与微调或强化学习从人类反馈中得到控制的方法相比所需的计算量和实施工作的差异。

Aug, 2023

扩展激活引导至广泛技能和多重行为

目前的大型语言模型具有危险的能力，这些能力在将来可能变得更加问题。激活引导技术可以用来减少这些能力带来的风险。本文通过调查激活引导在广泛技能和多种行为方面的功效，首先比较了减少整体编码能力和 Python 特定能力对绩效的影响，发现调整更广泛的技能与调整更狭窄的技能具有竞争力；其次，我们引导模型变得更加短视和追逐财富等其他行为。在我们的实验中，将多种行为的调整向量合并为一个调整向量的方法基本上不成功。另一方面，同时在模型的不同位置插入个别的调整向量是有前景的。

Mar, 2024

通过对比激活添加驾驭 Llama 2

介绍了一种名为 Contrastive Activation Addition（CAA）的创新方法，通过在正向传递过程中修改激活来控制语言模型的行为；通过计算 “驱动向量” 来精确控制目标行为的程度，并通过在用户提示后的所有标记位置添加这些驱动向量，CAA 显著改变模型行为，胜过传统的微调和少数样本提示方法，并对大型语言模型（LLMs）中的高级概念的表示提供了深入洞察。

Dec, 2023

后门激活攻击：使用激活引导实施对大型语言模型的攻击以达到安全对齐

通过向大型语言模型注入木马激活向量，我们提出了一种名为后门激活攻击的新型攻击框架，使得模型在推理时可以被激活并朝着攻击者所期望的行为方向进行操纵，该方法在主要的对齐任务上表现出高度的有效性，并且几乎不会给攻击效率增加任何开销，同时讨论了对抗此类激活攻击的潜在对策。

Nov, 2023

代码语言模型中强化的类型预测激活控制

通过激活控制技术，我们可以提高编程预训练模型的鲁棒性，使其在语法上更加灵活，进而提高类型预测的准确性，并揭示了预训练模型可能在不同编程语言之间进行类型知识迁移的可能性。

Apr, 2024

利用动态激活组合对大型语言模型进行多属性调控

本研究评估了不同的激活导向策略，并提出了动态激活组合方法，以确保在生成过程中实现高度的条件控制同时最小化对生成流畅性的影响。

Jun, 2024

DESTEIN: 通过通用导航对偶和头部激活融合实现语言模型的过滤式导航

该研究提出了 DeStein，一种通过调整激活空间内的内部表示来净化语言模型的新方法，该方法在资源和时间成本较低的情况下实现了混合解毒向量和原始表示，实证结果表明该方法在常用的解毒评估指标上明显优于现有的最先进方法，并保持了令人满意的生成质量和多样性，同时还将该方法扩展到多个大型语言模型，展示了其实用性和可扩展性。

Apr, 2024