Jul, 2024

流畅的学生-教师红队

TL;DR本研究解决了安全调优语言模型在有效性上的不足,提出了一种新的基于蒸馏的攻击方法,旨在促使目标模型模仿毒化的微调输出。核心发现是,通过对人类流畅性和不同优化策略的结合,我们能够以更高的成功率破坏这些模型的安全性,并在许多未见任务上实现较高的合规性。