Feb, 2024

打破突破:通过自我完善为 LM 防御越狱攻击重新定义

TL;DR我们提出了一种自我改进的格式化方法,即使在非安全对齐的语言模型中也能实现出色的安全性,通过将我们的方法与几种防御基线进行评估,证明它是针对越狱攻击最安全的无需训练的方法。此外,我们提出了一种格式化方法,可以在更少的迭代中提高自我改进过程的效率,同时降低攻击成功率。我们还观察到,在安全任务中,非安全对齐的语言模型比安全对齐的语言模型表现更好,给出更有帮助且安全的回应。总之,我们的研究发现可以在减少计算成本的同时减少安全风险,使非安全的语言模型可以在真实世界的服务中轻松应用。