Feb, 2024
DrAttack: 强大的 LLM 越狱程序的提示分解与重构
DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers
Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh
TL;DR该研究论文提出了一种自动提示分解和重构框架(DrAttack),通过将恶意提示分解为子提示,并通过上下文学习和同义词搜索来实现重新组装,从而有效地模糊其恶意意图,以提高大语言模型的入侵成功率。在多个开源和闭源大语言模型上的实证研究表明,DrAttack 能够显著降低查询次数,并在仅使用 15 个查询时,在 GPT-4 上获得了 78.0%的成功率,超过了以前的最佳攻击方法的 33.1%。