Jun, 2024
无副作用的驾驶:提高语言模型的部署后控制
Steering Without Side Effects: Improving Post-Deployment Control of Language Models
Asa Cooper Stickland, Alexander Lyzhov, Jacob Pfau, Salsabila Mahdi, Samuel R. Bowman
TL;DR减少最坏情况行为的方法,通过将合适的向量添加到模型隐藏状态,我们提出了 KL-then-steer (KTS) 技术,该技术通过首先训练模型来最小化斯坦离差 (KL),然后再进行模型转向,可以防止原始 Llama-2-chat-7B 模型的 44% 的越狱攻击,并保持与原始语言模型几乎相当的友善性。