Jun, 2024

提问者是谁?用户人设与潜在不一致的机制

TL;DR我们的研究揭示了现象的运作机制,发现模型的安全性调优仍存在潜在的错位能力,尽管已经进行了提高。我们证明了即使模型的生成是安全的,有害内容仍然可以存在于隐藏表示中,并且可以通过从较早层进行解码来提取。我们还发现,模型是否泄露此类内容在很大程度上取决于其与对话对象的知觉,我们将其称为用户人设。实际上,我们发现操纵用户人设甚至比直接控制模型的拒绝更有效地引发有害内容。我们研究了自然语言提示和激活引导作为控制方法,并表明激活引导在绕过安全过滤器方面要更加有效。我们研究了为什么某些人设会破坏模型的保护措施,并发现它们使模型能够对本来危险的查询进行更加慈善的解释。最后,我们展示了我们可以仅根据其操纵向量的几何结构来预测人设对拒绝的影响。