AmpleGCG: 学习一种通用且可传输的对抗后缀生成模型，用于破解开放和关闭的 LLM

Apr, 2024

AmpleGCG: 学习一种通用且可传输的对抗后缀生成模型，用于破解开放和关闭的 LLM

AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs

PDF

Zeyi Liao, Huan Sun

TL;DR我们训练了一个生成模型，名为 AmpleGCG，它能够捕捉对抗性后缀的分布，使得在几秒钟内能够快速生成几百个对任何有害查询的后缀，并且能够以接近 100％的攻击成功率攻击多种语言模型。

Abstract

As large language models (LLMs) become increasingly prevalent and integrated into autonomous systems, ensuring their safety is imperative. Despite significant strides toward safety alignment, recent work GCG~\cit

large language models safety alignment token optimization algorithm adversarial suffixes attack success rate

发现论文，激发创造

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023

大型语言模型基于优化的越狱技术的改进技术

提出改进的优化方法、多坐标更新策略等技术来实现大语言模型的监狱破解攻击，并在实验中证明其有效性。

May, 2024

针对安全定向 LLM 的改进对抗样本生成

通过借鉴转移式攻击的思想，结合渐变式对抗性提示生成过程，我们改进了自动生成的对抗性示例以攻击白盒大语言模型，取得了显著的性能提升，同时也提出了新的见解和适当的方法组合。

May, 2024

利用动量增强越狱攻击

通过在渐变启发式中引入动量项，我们提出了动量加速 GCG（MAC）攻击，以稳定优化过程并从先前迭代中获取更多启发式见解，实验结果展示了 MAC 在基于渐变的攻击中对齐语言模型的显著增强。

May, 2024

通过简单自适应攻击解禁领先的安全对齐 LLMs

展示了最新的安全对齐语言模型 (LLMs) 即使面对简单的适应性越狱攻击也不具有稳健性，并提出了适用于越狱攻击的对抗性提示模板、随机搜索等攻击方法，同时探索了适用于特定情境的不同模型的脆弱性以及特定 API 特征导致的脆弱性，并介绍了在木马检测领域中使用随机搜索的一种算法。

Apr, 2024

使用词替代密码破解专有大型语言模型

大型语言模型容易受到称为 Jailbreak 的创新提示的影响，本文提出使用加密技术对越狱提示进行编码，实验结果表明我们提出的越狱方法在 ChatGPT、GPT-4 和 Gemini-Pro 等先进专有模型上的攻击成功率高达 59.42％，此外，我们还讨论了这些模型的过度防御性。

Feb, 2024

SmoothLLM: 对抗越狱攻击的大型语言模型防御

为了解决大型语言模型在破解攻击中的脆弱性，提出了 SmoothLLM 算法，通过对输入的随机扰动和聚合进行检测，降低了攻击成功率，并在攻击缓解上提供了可证明的保证。

Oct, 2023

通过自适应的稠密到稀疏约束优化实现高效 LLM 越狱

最近的研究发现，大型语言模型（LLMs）易受到越狱攻击，可以生成有害内容。本文介绍了一种新颖的令牌级攻击方法，自适应密集到稀疏约束优化（ADC），该方法有效越狱了几个开源 LLMs。我们的方法将离散越狱优化放松为连续优化，并逐渐增加优化向量的稀疏度。因此，我们的方法有效地弥补了离散和连续空间优化之间的差距。实验结果表明，我们的方法比现有的令牌级方法更加有效和高效。在 Harmbench 上，我们的方法在八个 LLMs 中有七个达到了最先进的攻击成功率。代码将会提供。触发警告：本文涉及具有冒犯性的模型行为。

May, 2024

WordGame：通过同时查询和响应模糊隐藏来实现高效和有效的 LLM 越狱

通过同时在查询和响应中进行模糊处理，我们提出了 WordGame 攻击，用于越过当前领先的专有和开源大型语言模型，包括最新的 Claude-3、GPT-4 和 Llama-3 模型的防护措施，从而破坏其对安全对齐的保护。

May, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024