AutoDAN：生成对齐的大型语言模型上隐蔽越狱提示

Oct, 2023

AutoDAN：生成对齐的大型语言模型上隐蔽越狱提示

AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models

Xiaogeng Liu, Nan Xu, Muhao Chen, Chaowei Xiao

TL;DR通过精心设计的分层遗传算法，AutoDAN 能够自动生成隐秘的越狱提示，不仅自动化了过程同时保持语义的意义，并且在跨模型转移性和交叉样本普适性方面表现出优越的攻击力，比基线方法更好。此外，我们还将 AutoDAN 与基于困惑度的防御方法进行比较，并展示了 AutoDAN 能够有效地绕过它们。

Abstract

The aligned large language models (LLMs) are powerful language understanding and decision-making tools that are created through extensive alignment with human feedback. However, these large models remain susceptible to jailbreak attacks, where adversaries manipulate prompts to elicit m

large language models jailbreak prompts autodan stealthy aligned llms

发现论文，激发创造

AutoDAN: 大型语言模型的自动可解释的对抗攻击

安全性对齐、大型语言模型（LLMs）、手动越狱攻击、对抗性攻击、可解释对抗性攻击。

Oct, 2023

狼穿羊皮：通用嵌套越狱引导轻易蒙骗大型语言模型

基于自动生成的破解提示，我们提出了 ReNeLLM 框架来改进大型语言模型的攻击成功率，同时降低时间成本；我们的研究揭示了当前防御方法在保护大型语言模型方面的不足，并从提示执行优先级的角度进行了详细的分析和讨论。

Nov, 2023

不要听我说：理解和探索大型语言模型的越狱提示

通过系统化研究和用户调查，我们发现生成式 AI 技术中的大型语言模型 (LLMs) 存在滥用、绕过安全限制的风险，尤其是使用 jailbreak prompts 进行潜在有害内容的生成，为了应对这一问题，我们开发了一个基于人工智能的系统来自动化产生 jailbreak prompts 的过程。

Mar, 2024

语义镜像越狱：基于遗传算法的越狱提升开放源码 LLMs

介绍了一种利用语义镜像破解方法来生成与原始问题语义相似的破解提示，通过基因算法生成合适的破解提示，相比基线方法，该方法的攻击成功率提升了最多 35.4%（无 ONION 防御）和 85.2%（有 ONION 防御），同时在破解提示的语义相关性和异常值等三个语义相关指标上表现更好。

Feb, 2024

通过伪装和重构在少量查询中解封大型语言模型的方法

通过识别安全微调中的偏差漏洞并设计一种称为 DRA（伪装和重构攻击）的黑盒越狱方法，我们在 LLMs 安全方面开创了理论基础。我们评估了 DRA 在各种开源和闭源模型上的效果，并展示了最先进的越狱成功率和攻击效率，特别是在 LLM 聊天机器人 GPT-4 上，DRA 拥有 90％的攻击成功率。

Feb, 2024

通用黑盒破解大型语言模型

介绍了一种使用遗传算法来操纵无法访问模型结构和参数的大型语言模型的新方法，通过优化通用对抗提示，发现模型的限制和漏洞，从而破坏模型的对齐性，提供诊断工具以评估和增强大型语言模型与人类意图的一致性。

Sep, 2023

AdvPrompter: LLMs 的快速自适应敌对提示

通过使用 AdvPrompter 方法，本文提出了一种用于生成人类可读的敌对提示的新方法，生成的提示可以在几秒钟内完成，比现有的基于优化的方法快 800 倍，该方法使得大型语言模型（LLMs）更加抵抗破解攻击而实现高性能。

Apr, 2024

DrAttack: 强大的 LLM 越狱程序的提示分解与重构

该研究论文提出了一种自动提示分解和重构框架（DrAttack），通过将恶意提示分解为子提示，并通过上下文学习和同义词搜索来实现重新组装，从而有效地模糊其恶意意图，以提高大语言模型的入侵成功率。在多个开源和闭源大语言模型上的实证研究表明，DrAttack 能够显著降低查询次数，并在仅使用 15 个查询时，在 GPT-4 上获得了 78.0％的成功率，超过了以前的最佳攻击方法的 33.1％。

Feb, 2024

对抗调整：为 LLMs 防御越狱攻击

通过优化包含对抗性提示及其安全响应的数据集，我们提出了一个两阶段的对抗调整框架，用于增强大型语言模型在防御能力方面的广义性，实验证明了我们方法的优越性，并展示了它作为可传输防御机制的潜力。

Jun, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024