Jun, 2024

无副作用的驾驶:提高语言模型的部署后控制

TL;DR减少最坏情况行为的方法,通过将合适的向量添加到模型隐藏状态,我们提出了 KL-then-steer (KTS) 技术,该技术通过首先训练模型来最小化斯坦离差 (KL),然后再进行模型转向,可以防止原始 Llama-2-chat-7B 模型的 44% 的越狱攻击,并保持与原始语言模型几乎相当的友善性。