Jan, 2025
层级自我曝光与补丁:针对越狱攻击防御的肯定性标记减缓
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for
Jailbreak Attack Defense
TL;DR本研究解决了大型语言模型在面对越狱攻击时的安全性问题,提出了一种新方法Layer-AdvPatcher,通过自增强数据集对特定层进行补丁修复,从而缓解肯定性标记的影响。研究发现,识别易受攻击的层并进行对抗性曝光可以有效降低越狱攻击的成功率,同时保持模型对安全查询的响应能力。