Jun, 2024
用表示编辑来对齐大型语言模型:一个控制的观点
Aligning Large Language Models with Representation Editing: A Control Perspective
Lingkai Kong, Haorui Wang, Wenhao Mu, Yuanqi Du, Yuchen Zhuang...
TL;DR通过表示编辑的方法,提出了一种通过在预训练的自回归大型语言模型上引入外部控制信号,以实现特定目标对齐的方法,实验证明该方法在测试时间上优于现有的测试时间对齐技术,并且相对于微调方法需要较少的资源。