May, 2024

针对安全定向 LLM 的改进对抗样本生成

TL;DR通过借鉴转移式攻击的思想,结合渐变式对抗性提示生成过程,我们改进了自动生成的对抗性示例以攻击白盒大语言模型,取得了显著的性能提升,同时也提出了新的见解和适当的方法组合。