Apr, 2024

AmpleGCG: 学习一种通用且可传输的对抗后缀生成模型,用于破解开放和关闭的 LLM

TL;DR我们训练了一个生成模型,名为 AmpleGCG,它能够捕捉对抗性后缀的分布,使得在几秒钟内能够快速生成几百个对任何有害查询的后缀,并且能够以接近 100%的攻击成功率攻击多种语言模型。