Dec, 2023

通过对比激活添加驾驭 Llama 2

TL;DR介绍了一种名为 Contrastive Activation Addition(CAA)的创新方法,通过在正向传递过程中修改激活来控制语言模型的行为;通过计算 “驱动向量” 来精确控制目标行为的程度,并通过在用户提示后的所有标记位置添加这些驱动向量,CAA 显著改变模型行为,胜过传统的微调和少数样本提示方法,并对大型语言模型(LLMs)中的高级概念的表示提供了深入洞察。