Oct, 2023

AutoDAN:生成对齐的大型语言模型上隐蔽越狱提示

TL;DR通过精心设计的分层遗传算法,AutoDAN 能够自动生成隐秘的越狱提示,不仅自动化了过程同时保持语义的意义,并且在跨模型转移性和交叉样本普适性方面表现出优越的攻击力,比基线方法更好。此外,我们还将 AutoDAN 与基于困惑度的防御方法进行比较,并展示了 AutoDAN 能够有效地绕过它们。