Jun, 2024

将后缀梯度压缩为前缀控制器以实现 LLM 行为的自我控制

TL;DR我们提出了 Self-Control,一种利用后缀梯度控制大型语言模型行为的新方法,无需明确的人工注释。通过给定后缀字符串表示的指导方针和模型对遵守度的自我评估,Self-Control 计算模型隐藏状态的自我判断的梯度,直接影响自回归生成过程朝着所期望的行为方向。为了提高效率,我们引入了 Self-Control_{prefix},这是一个紧凑的模块,将从后缀梯度中学得的表示封装到 Prefix Controller 中,以促进各种大型语言模型行为的推理时控制。我们的实验证明了 Self-Control 在多个领域的有效性,包括情感调节,确保无害性和增强复杂推理。特别是,Self-Control_{prefix} 实现了即插即用的控制,并能够同时控制多个属性,改进模型输出而不改变模型参数或增加推理时的成本。