Feb, 2024

勤奋的鲍勃通过及时对抗调整反击越狱

TL;DR我们提出了一种名为 Prompt Adversarial Tuning (PAT) 的方法来训练一个防御控制机制,将其作为用户提示的前缀来实施我们的防御策略,该方法在黑盒和白盒设置中表现有效,在几乎不影响操作效率的情况下,将高级攻击的成功率降低到几乎为 0,同时仍然保持对简单问题的良性回答率为 80%。我们的研究在 LLM 安全领域可能为未来的探索开辟新的视角。