Aug, 2023

激活增加:不经优化的引导语言模型

TL;DR控制大型语言模型行为的问题已成为紧迫的开放问题。在本文中,我们提出了一种称为 Activation Addition (ActAdd) 的方法,通过在推理过程中修改激活来可预测地改变模型行为,并展示了其在 GPT-2 上的应用,以及其与微调或强化学习从人类反馈中得到控制的方法相比所需的计算量和实施工作的差异。