扩展激活引导至广泛技能和多重行为

Mar, 2024

扩展激活引导至广泛技能和多重行为

Extending Activation Steering to Broad Skills and Multiple Behaviours

Teun van der Weij, Massimo Poesio, Nandi Schoots

TL;DR目前的大型语言模型具有危险的能力，这些能力在将来可能变得更加问题。激活引导技术可以用来减少这些能力带来的风险。本文通过调查激活引导在广泛技能和多种行为方面的功效，首先比较了减少整体编码能力和 Python 特定能力对绩效的影响，发现调整更广泛的技能与调整更狭窄的技能具有竞争力；其次，我们引导模型变得更加短视和追逐财富等其他行为。在我们的实验中，将多种行为的调整向量合并为一个调整向量的方法基本上不成功。另一方面，同时在模型的不同位置插入个别的调整向量是有前景的。

Abstract

Current large language models have dangerous capabilities, which are likely to become more problematic in the future. activation steering techniques can be used to reduce →

large language models activation steering risks broad skills multiple behaviours

发现论文，激发创造

用均值居中改进语言模型中的激活引导

通过应用均值中心化的思想，我们发现将与目标数据集相关的激活平均值减去所有训练激活的均值，可以得到有效的转向向量，这在广泛的上下文中可以轻松改善激活转向的有效性。

Dec, 2023

利用动态激活组合对大型语言模型进行多属性调控

本研究评估了不同的激活导向策略，并提出了动态激活组合方法，以确保在生成过程中实现高度的条件控制同时最小化对生成流畅性的影响。

Jun, 2024

后门激活攻击：使用激活引导实施对大型语言模型的攻击以达到安全对齐

通过向大型语言模型注入木马激活向量，我们提出了一种名为后门激活攻击的新型攻击框架，使得模型在推理时可以被激活并朝着攻击者所期望的行为方向进行操纵，该方法在主要的对齐任务上表现出高度的有效性，并且几乎不会给攻击效率增加任何开销，同时讨论了对抗此类激活攻击的潜在对策。

Nov, 2023

大型语言模型的个性化引导：通过双向偏好优化实现多功能引导向量

通过双向偏好优化来产生更有效的转向向量，从而在多种开放生成任务中实现个性化控制，并在关键对齐场景中展示出卓越的转向效果以及多个向量同时应用时的协同效益。

May, 2024

激活增加：不经优化的引导语言模型

控制大型语言模型行为的问题已成为紧迫的开放问题。在本文中，我们提出了一种称为 Activation Addition (ActAdd) 的方法，通过在推理过程中修改激活来可预测地改变模型行为，并展示了其在 GPT-2 上的应用，以及其与微调或强化学习从人类反馈中得到控制的方法相比所需的计算量和实施工作的差异。

Aug, 2023

用于引导生成式大型语言模型的风格向量

本研究通过在文本生成过程中向隐藏层的激活添加风格向量，探索将大型语言模型 (LLMs) 的输出引导到特定风格 (如情感、情绪或写作风格) 的策略。通过一系列实验，我们展示了使用这种风格向量进行激活工程对生成文本的风格产生影响的有效性和可调节性，使其与提示工程相区别，从而促进了更具适应性和有效性的 AI 增强交互系统的发展。

Feb, 2024

代码语言模型中强化的类型预测激活控制

通过激活控制技术，我们可以提高编程预训练模型的鲁棒性，使其在语法上更加灵活，进而提高类型预测的准确性，并揭示了预训练模型可能在不同编程语言之间进行类型知识迁移的可能性。

Apr, 2024

通过对比激活添加驾驭 Llama 2

介绍了一种名为 Contrastive Activation Addition（CAA）的创新方法，通过在正向传递过程中修改激活来控制语言模型的行为；通过计算 “驱动向量” 来精确控制目标行为的程度，并通过在用户提示后的所有标记位置添加这些驱动向量，CAA 显著改变模型行为，胜过传统的微调和少数样本提示方法，并对大型语言模型（LLMs）中的高级概念的表示提供了深入洞察。

Dec, 2023

用基于能量模型控制转向

本研究对比了使用隐式行为克隆的基于能量模型和明示基线方法在同一神经网络骨干结构下对真实自动驾驶汽车转向控制的表现，结果显示能量模型在安全驾驶干预方面表现类似，但会导致更高的颤动。问题的解决需要使用两种方法改善平稳性。与简单回归相比，能量模型在处理多模态方面略微更好，但这并没有显著提高驾驶能力，因此将隐式行为克隆应用于实际任务仍有挑战性。

Jan, 2023

无副作用的驾驶：提高语言模型的部署后控制

减少最坏情况行为的方法，通过将合适的向量添加到模型隐藏状态，我们提出了 KL-then-steer (KTS) 技术，该技术通过首先训练模型来最小化斯坦离差 (KL)，然后再进行模型转向，可以防止原始 Llama-2-chat-7B 模型的 44% 的越狱攻击，并保持与原始语言模型几乎相当的友善性。

Jun, 2024