Feb, 2024

利用后门增强对齐来缓解微调越狱攻击

TL;DR通过使用少量的安全示例,我们提出了一种后门增强安全对齐方法,以有效防御偏好微调调优攻击,同时不损害微调任务的性能。