利用动量增强越狱攻击

ICLRMay, 2024

Boosting Jailbreak Attack with Momentum

Yihao Zhang, Zeming Wei

TL;DR通过在渐变启发式中引入动量项，我们提出了动量加速 GCG（MAC）攻击，以稳定优化过程并从先前迭代中获取更多启发式见解，实验结果展示了 MAC 在基于渐变的攻击中对齐语言模型的显著增强。

Abstract

large language models (LLMs) have achieved remarkable success across diverse tasks, yet they remain vulnerable to adversarial attacks, notably the well-documented \textit{jailbreak} attack. Recently, the Greedy C

large language models adversarial attacks greedy coordinate gradient optimization process aligned language models

发现论文，激发创造

大型语言模型基于优化的越狱技术的改进技术

提出改进的优化方法、多坐标更新策略等技术来实现大语言模型的监狱破解攻击，并在实验中证明其有效性。

May, 2024

针对安全定向 LLM 的改进对抗样本生成

通过借鉴转移式攻击的思想，结合渐变式对抗性提示生成过程，我们改进了自动生成的对抗性示例以攻击白盒大语言模型，取得了显著的性能提升，同时也提出了新的见解和适当的方法组合。

May, 2024

AmpleGCG: 学习一种通用且可传输的对抗后缀生成模型，用于破解开放和关闭的 LLM

我们训练了一个生成模型，名为 AmpleGCG，它能够捕捉对抗性后缀的分布，使得在几秒钟内能够快速生成几百个对任何有害查询的后缀，并且能够以接近 100％的攻击成功率攻击多种语言模型。

Apr, 2024

LLMs 在实践中可以自我防御破解：一篇展望性论文

Jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large language models. This paper proposes a lightweight yet practical defense called SELFDEFEND, which can defend against all existing jailbreak attacks with minimal delay for jailbreak prompts and negligible delay for normal user prompts.

Feb, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

现在，请写一篇关于此的文章：Crescendo 多轮 LLM 越狱攻击

通过一种名为 Crescendo 的新型逃狱攻击，本研究证明了该攻击在各种公开系统中的成功效果，并引入了 Crescendomation 工具，展示了其对最先进模型的有效性。

Apr, 2024

SmoothLLM: 对抗越狱攻击的大型语言模型防御

为了解决大型语言模型在破解攻击中的脆弱性，提出了 SmoothLLM 算法，通过对输入的随机扰动和聚合进行检测，降低了攻击成功率，并在攻击缓解上提供了可证明的保证。

Oct, 2023

利用上下文对抗性游戏防御越狱引发事件

利用深度学习和大型语言模型 (Large Language Models) 的对抗训练方法，引入了以环境为背景的对抗性游戏 (In-Context Adversarial Game, ICAG)，以动态扩展知识来抵御越狱攻击，而无需进行精调。ICAG 采用迭代过程提升防御和攻击代理的能力，从而有效降低了新生成的越狱提示对 LLMs 的成功攻击率，且展现了对其他 LLMs 的可转移能力，显示出其作为多功能防御机制的潜力。

Feb, 2024

探索拒绝损失地形的梯度手环：在大型语言模型上检测越狱攻击

为了解决 Large Language Models 对恶意破坏性攻击的易受攻击性问题，本文提出了 Refusal Loss 和 Gradient Cuff 方法来检测和拒绝这些攻击，从而提高模型的安全性和性能。

Mar, 2024

通过自适应的稠密到稀疏约束优化实现高效 LLM 越狱

最近的研究发现，大型语言模型（LLMs）易受到越狱攻击，可以生成有害内容。本文介绍了一种新颖的令牌级攻击方法，自适应密集到稀疏约束优化（ADC），该方法有效越狱了几个开源 LLMs。我们的方法将离散越狱优化放松为连续优化，并逐渐增加优化向量的稀疏度。因此，我们的方法有效地弥补了离散和连续空间优化之间的差距。实验结果表明，我们的方法比现有的令牌级方法更加有效和高效。在 Harmbench 上，我们的方法在八个 LLMs 中有七个达到了最先进的攻击成功率。代码将会提供。触发警告：本文涉及具有冒犯性的模型行为。

May, 2024