利用任务过载实现对大型语言模型的可扩展越狱攻击

Oct, 2024

利用任务过载实现对大型语言模型的可扩展越狱攻击

Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models

Yiting Dong, Guobin Shen, Dongcheng Zhao, Xiang He, Yi Zeng

TL;DR本研究解决了大型语言模型在越狱攻击中的脆弱性，现有方法无法灵活调整攻击强度。我们提出了一种新颖的可扩展越狱攻击，通过占用计算资源来预先触发安全政策的激活，以实现高成功率的安全措施绕过。实验结果表明，该方法在各种模型规模上都表现良好，揭示了当前LLM安全设计中的关键漏洞。

Abstract

Large Language Models (LLMs) remain vulnerable to Jailbreak Attacks that bypass their Safety Mechanisms. Existing attack methods are fixed

发现论文，激发创造

狼穿羊皮：通用嵌套越狱引导轻易蒙骗大型语言模型

基于自动生成的破解提示，我们提出了ReNeLLM框架来改进大型语言模型的攻击成功率，同时降低时间成本；我们的研究揭示了当前防御方法在保护大型语言模型方面的不足，并从提示执行优先级的角度进行了详细的分析和讨论。

Nov, 2023

通过目标优先级保护大型语言模型抵御越狱攻击

通过将目标优先级整合到训练和推理阶段，我们提出了一种对抗越狱攻击的方法，显著降低了越狱攻击的成功率，并减少了大型语言模型的潜在安全风险。

Nov, 2023

大型语言模型上的从弱到强破解

通过实验，研究发现了对齐的大型语言模型存在监狱突破漏洞，提出了一种弱到强的监狱突破攻击方法，并介绍了一种针对该攻击的防御策略。

Jan, 2024

对LLM的越狱攻击进行全面评估

对大型语言模型(也称为LLMs)的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

通过特定层编辑来防御针对大型语言模型的越狱攻击

通过Layer-specific Editing (LED)方法，本研究探讨了大型语言模型（LLMs）对有害提示的反应，并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐，可以显著提高LLMs对破解攻击的适应性。

May, 2024

技术秘籍：LLM破解攻击基准测试

对大型语言模型中所存在的破解攻击进行评估，并提供一套基准测试框架来推动对防御增强型大型语言模型的攻击的标准化评估。

Jun, 2024

大型语言模型的越狱攻击与防御：综述

通过提出全面详细的破防攻击和防御方法分类体系，本研究旨在启发未来的研究和实际应用，增强对大语言模型在对抗性攻击中的安全性保障，为发展更安全的大语言模型奠定基础。

Jul, 2024

h4rm3l：可组合越狱攻击的动态基准评估大型语言模型的安全性

本研究针对大型语言模型（LLMs）在生成有害内容方面的安全性评估缺乏足够基准的问题，提出了一种新颖的动态基准h4rm3l，用于可组合越狱攻击。研究显示，该方法生成的2656种越狱攻击在有效性上超过90%，为理解LLMs的安全局限性和发展强大防御提供了支持。

Aug, 2024

监狱破解解药：通过稀疏表示调整实现大型语言模型的运行时安全-效用平衡

本研究针对大型语言模型（LLMs）在确保安全性与效用之间面临的挑战，提出了“监狱破解解药”方法。该方法通过在推理过程中操作模型内部状态的稀疏子集，实现了实时调整安全偏好的能力，显著提高了安全性而不影响模型的实用性。实验证明，调整约5%的内部状态即可与修改整个状态同样有效，表明该方法的高效性和实用性。

Oct, 2024

通过句末MLP重加权破解指令调优的大型语言模型

本研究针对指令调优的大型语言模型（LLMs）的安全机制进行探讨，发现重加权MLP神经元会显著削弱模型的安全性，尤其是在句末推理时。提出的两种新型白盒破解方法增强了对已知和未知有害提示的攻击效果，展示了在多种开源LLM中的强大表现，并加深了对LLMs内部机制的理解。

Oct, 2024