Feb, 2024

DrAttack: 强大的 LLM 越狱程序的提示分解与重构

TL;DR该研究论文提出了一种自动提示分解和重构框架(DrAttack),通过将恶意提示分解为子提示,并通过上下文学习和同义词搜索来实现重新组装,从而有效地模糊其恶意意图,以提高大语言模型的入侵成功率。在多个开源和闭源大语言模型上的实证研究表明,DrAttack 能够显著降低查询次数,并在仅使用 15 个查询时,在 GPT-4 上获得了 78.0%的成功率,超过了以前的最佳攻击方法的 33.1%。