May, 2024

大型语言模型对齐的光谱激活编辑

TL;DR大型语言模型经常表现出不良行为,本研究提出了一种新的推理时编辑方法,即激活的频谱编辑(SEA),通过将输入表示投影到与积极示范具有最大协方差方向,同时最小化与消极示范具有协方差的方向,有效地缓解了生成虚假或有偏差内容的问题。