通过自适应的稠密到稀疏约束优化实现高效 LLM 越狱

May, 2024

通过自适应的稠密到稀疏约束优化实现高效 LLM 越狱

Efficient LLM Jailbreak via Adaptive Dense-to-sparse Constrained Optimization

Kai Hu, Weichen Yu, Tianjun Yao, Xiang Li, Wenhe Liu...

TL;DR最近的研究发现，大型语言模型（LLMs）易受到越狱攻击，可以生成有害内容。本文介绍了一种新颖的令牌级攻击方法，自适应密集到稀疏约束优化（ADC），该方法有效越狱了几个开源 LLMs。我们的方法将离散越狱优化放松为连续优化，并逐渐增加优化向量的稀疏度。因此，我们的方法有效地弥补了离散和连续空间优化之间的差距。实验结果表明，我们的方法比现有的令牌级方法更加有效和高效。在 Harmbench 上，我们的方法在八个 LLMs 中有七个达到了最先进的攻击成功率。代码将会提供。触发警告：本文涉及具有冒犯性的模型行为。

Abstract

Recent research indicates that large language models (LLMs) are susceptible to jailbreaking attacks that can generate harmful content. This paper introduces a novel →

large language models jailbreaking attacks token-level attack method continuous optimization state of the art attack success rate

发现论文，激发创造

通过简单自适应攻击解禁领先的安全对齐 LLMs

展示了最新的安全对齐语言模型 (LLMs) 即使面对简单的适应性越狱攻击也不具有稳健性，并提出了适用于越狱攻击的对抗性提示模板、随机搜索等攻击方法，同时探索了适用于特定情境的不同模型的脆弱性以及特定 API 特征导致的脆弱性，并介绍了在木马检测领域中使用随机搜索的一种算法。

Apr, 2024

SmoothLLM: 对抗越狱攻击的大型语言模型防御

为了解决大型语言模型在破解攻击中的脆弱性，提出了 SmoothLLM 算法，通过对输入的随机扰动和聚合进行检测，降低了攻击成功率，并在攻击缓解上提供了可证明的保证。

Oct, 2023

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

针对安全定向 LLM 的改进对抗样本生成

通过借鉴转移式攻击的思想，结合渐变式对抗性提示生成过程，我们改进了自动生成的对抗性示例以攻击白盒大语言模型，取得了显著的性能提升，同时也提出了新的见解和适当的方法组合。

May, 2024

大型语言模型上的从弱到强破解

通过实验，研究发现了对齐的大型语言模型存在监狱突破漏洞，提出了一种弱到强的监狱突破攻击方法，并介绍了一种针对该攻击的防御策略。

Jan, 2024

迫使语言模型（LLMs）做和透露（几乎）任何事情

广义的对大型语言模型进行的对抗性攻击研究了攻击面和攻击目标，并对具体例子进行了分类和系统化，如误导、模型控制、服务拒绝或数据提取，并分析了这些攻击的实验结果。

Feb, 2024

技术秘籍：LLM 破解攻击基准测试

对大型语言模型中所存在的破解攻击进行评估，并提供一套基准测试框架来推动对防御增强型大型语言模型的攻击的标准化评估。

Jun, 2024

引入视觉模态的高效 LLM 越狱

该研究聚焦于针对大型语言模型的越狱攻击，以激发其对有害用户查询的回应中生成令人不悦内容。通过将视觉模块融入目标语言模型，构建一个多模态大型语言模型（MLLM），我们使用高效的 MLLM 越狱方法生成越狱嵌入 embJS，并将其转换为文本空间以促进对目标语言模型的越狱。与直接越狱语言模型相比，我们的方法更加高效，因为 MLLM 比纯语言模型更容易越狱。此外，为提高越狱成功率，我们提出了一种图像 - 文本语义匹配方案以识别适当的初始输入。广泛的实验证明，我们的方法在效率和有效性方面超越了当前最先进的方法。此外，我们的方法具有优越的跨类别越狱能力。

May, 2024

基于逻辑回归的令牌级操作的破解方法：Lockpicking LLMs

大型语言模型（LLMs）已经改变了自然语言处理领域，但它们仍然容易受到越狱攻击的影响，这种攻击利用了它们生成意外和潜在有害内容的能力。我们通过介绍 JailMine，一种有效应对这些限制的创新的基于令牌水平操作的方法，通过自动化的 “挖掘” 过程从 LLMs 中引发恶意响应，从而解决了现有基于令牌水平的越狱技术所面临的可扩展性和效率挑战。通过在多个知名 LLMs 和数据集上进行严格测试，我们证明了 JailMine 的有效性和效率，在保持高成功率（平均 95%）的同时，平均时间消耗大幅减少了 86％，即使面对不断进化的防御策略。我们的工作为评估和减轻 LLMs 对越狱攻击的脆弱性作出了贡献，强调了继续保持警惕和采取积极措施以增强这些强大语言模型的安全性和可靠性的重要性。

May, 2024

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024