ICLRMay, 2024

利用动量增强越狱攻击

TL;DR通过在渐变启发式中引入动量项,我们提出了动量加速 GCG(MAC)攻击,以稳定优化过程并从先前迭代中获取更多启发式见解,实验结果展示了 MAC 在基于渐变的攻击中对齐语言模型的显著增强。