目前的大型语言模型具有危险的能力,这些能力在将来可能变得更加问题。激活引导技术可以用来减少这些能力带来的风险。本文通过调查激活引导在广泛技能和多种行为方面的功效,首先比较了减少整体编码能力和 Python 特定能力对绩效的影响,发现调整更广泛的技能与调整更狭窄的技能具有竞争力;其次,我们引导模型变得更加短视和追逐财富等其他行为。在我们的实验中,将多种行为的调整向量合并为一个调整向量的方法基本上不成功。另一方面,同时在模型的不同位置插入个别的调整向量是有前景的。
Mar, 2024
控制大型语言模型行为的问题已成为紧迫的开放问题。在本文中,我们提出了一种称为 Activation Addition (ActAdd) 的方法,通过在推理过程中修改激活来可预测地改变模型行为,并展示了其在 GPT-2 上的应用,以及其与微调或强化学习从人类反馈中得到控制的方法相比所需的计算量和实施工作的差异。
Aug, 2023
本研究通过在文本生成过程中向隐藏层的激活添加风格向量,探索将大型语言模型 (LLMs) 的输出引导到特定风格 (如情感、情绪或写作风格) 的策略。通过一系列实验,我们展示了使用这种风格向量进行激活工程对生成文本的风格产生影响的有效性和可调节性,使其与提示工程相区别,从而促进了更具适应性和有效性的 AI 增强交互系统的发展。
Feb, 2024
通过双向偏好优化来产生更有效的转向向量,从而在多种开放生成任务中实现个性化控制,并在关键对齐场景中展示出卓越的转向效果以及多个向量同时应用时的协同效益。
May, 2024
通过应用均值中心化的思想,我们发现将与目标数据集相关的激活平均值减去所有训练激活的均值,可以得到有效的转向向量,这在广泛的上下文中可以轻松改善激活转向的有效性。
Dec, 2023
通过激活控制技术,我们可以提高编程预训练模型的鲁棒性,使其在语法上更加灵活,进而提高类型预测的准确性,并揭示了预训练模型可能在不同编程语言之间进行类型知识迁移的可能性。
Apr, 2024
该研究提出了 DeStein,一种通过调整激活空间内的内部表示来净化语言模型的新方法,该方法在资源和时间成本较低的情况下实现了混合解毒向量和原始表示,实证结果表明该方法在常用的解毒评估指标上明显优于现有的最先进方法,并保持了令人满意的生成质量和多样性,同时还将该方法扩展到多个大型语言模型,展示了其实用性和可扩展性。
介绍了一种名为 Contrastive Activation Addition(CAA)的创新方法,通过在正向传递过程中修改激活来控制语言模型的行为;通过计算 “驱动向量” 来精确控制目标行为的程度,并通过在用户提示后的所有标记位置添加这些驱动向量,CAA 显著改变模型行为,胜过传统的微调和少数样本提示方法,并对大型语言模型(LLMs)中的高级概念的表示提供了深入洞察。
通过向大型语言模型注入木马激活向量,我们提出了一种名为后门激活攻击的新型攻击框架,使得模型在推理时可以被激活并朝着攻击者所期望的行为方向进行操纵,该方法在主要的对齐任务上表现出高度的有效性,并且几乎不会给攻击效率增加任何开销,同时讨论了对抗此类激活攻击的潜在对策。
Nov, 2023
通过引入一种新的迭代训练算法,以文化传播作为归纳先验,本研究以视觉代理和语言代理之间的 Lewis 信号游戏重新定义了视觉 - 语言对比学习,并通过在训练过程中迭代重置代理权重的方式实现文化传播,使得模型对于合成语言的特性变得更易于学习,达到了在 SugarCrepe 评测中相比标准 CLIP 模型分别提升 4.7% 和 4.0% 的效果。