利用动量增强越狱攻击
通过借鉴转移式攻击的思想,结合渐变式对抗性提示生成过程,我们改进了自动生成的对抗性示例以攻击白盒大语言模型,取得了显著的性能提升,同时也提出了新的见解和适当的方法组合。
May, 2024
我们训练了一个生成模型,名为 AmpleGCG,它能够捕捉对抗性后缀的分布,使得在几秒钟内能够快速生成几百个对任何有害查询的后缀,并且能够以接近 100%的攻击成功率攻击多种语言模型。
Apr, 2024
Jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large language models. This paper proposes a lightweight yet practical defense called SELFDEFEND, which can defend against all existing jailbreak attacks with minimal delay for jailbreak prompts and negligible delay for normal user prompts.
Feb, 2024
对大型语言模型 (也称为 LLMs) 的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024
通过一种名为 Crescendo 的新型逃狱攻击,本研究证明了该攻击在各种公开系统中的成功效果,并引入了 Crescendomation 工具,展示了其对最先进模型的有效性。
Apr, 2024
为了解决大型语言模型在破解攻击中的脆弱性,提出了 SmoothLLM 算法,通过对输入的随机扰动和聚合进行检测,降低了攻击成功率,并在攻击缓解上提供了可证明的保证。
Oct, 2023
利用深度学习和大型语言模型 (Large Language Models) 的对抗训练方法,引入了以环境为背景的对抗性游戏 (In-Context Adversarial Game, ICAG),以动态扩展知识来抵御越狱攻击,而无需进行精调。ICAG 采用迭代过程提升防御和攻击代理的能力,从而有效降低了新生成的越狱提示对 LLMs 的成功攻击率,且展现了对其他 LLMs 的可转移能力,显示出其作为多功能防御机制的潜力。
Feb, 2024
为了解决 Large Language Models 对恶意破坏性攻击的易受攻击性问题,本文提出了 Refusal Loss 和 Gradient Cuff 方法来检测和拒绝这些攻击,从而提高模型的安全性和性能。
Mar, 2024
最近的研究发现,大型语言模型(LLMs)易受到越狱攻击,可以生成有害内容。本文介绍了一种新颖的令牌级攻击方法,自适应密集到稀疏约束优化(ADC),该方法有效越狱了几个开源 LLMs。我们的方法将离散越狱优化放松为连续优化,并逐渐增加优化向量的稀疏度。因此,我们的方法有效地弥补了离散和连续空间优化之间的差距。实验结果表明,我们的方法比现有的令牌级方法更加有效和高效。在 Harmbench 上,我们的方法在八个 LLMs 中有七个达到了最先进的攻击成功率。代码将会提供。触发警告:本文涉及具有冒犯性的模型行为。
May, 2024