Jan, 2024

针对越狱攻击的强化预设优化

TL;DR通过使用梯度优化的方法,我们提出了一种防御语言模型遭受恶意输入攻击的算法,Robust Prompt Optimization (RPO),有效地降低了对抗性攻击的成功率,并在黑盒模型中表现出了良好的转移能力。