Feb, 2024

由噪音到清晰:通过文本嵌入的翻译解开大型语言模型攻击的对抗后缀

TL;DR提出了一种能够将不可读的对抗性后缀转化为连贯可读文本的对抗性后缀嵌入翻译框架(ASETF),该方法在攻击成功率和提示文本的流畅性方面明显优于现有技术,并且可以推广为一种生成可成功攻击多种语言模型的可转移对抗性后缀的更广泛方法。