Oct, 2024

解密混沌:通过对抗性提示翻译增强越狱攻击

TL;DR本研究针对现有的对抗性提示生成方法在越狱攻击中的局限性,提出了一种全新的方法将杂乱的对抗性提示转化为连贯的人类可读的文本。此方法有效揭示并转移模型的脆弱性,提高了对安全对齐的大型语言模型的越狱攻击成功率,为越狱攻击的设计提供了新的思路。