BriefGPT.xyz
大模型
Ask
alpha
关键词
prompt adversarial tuning
搜索结果 - 1
勤奋的鲍勃通过及时对抗调整反击越狱
我们提出了一种名为 Prompt Adversarial Tuning (PAT) 的方法来训练一个防御控制机制,将其作为用户提示的前缀来实施我们的防御策略,该方法在黑盒和白盒设置中表现有效,在几乎不影响操作效率的情况下,将高级攻击的成功率
→
PDF
5 months ago
Prev
Next