通过句末MLP重加权破解指令调优的大型语言模型

Oct, 2024

通过句末MLP重加权破解指令调优的大型语言模型

Jailbreak Instruction-Tuned LLMs via end-of-sentence MLP Re-weighting

Yifan Luo, Zhennan Zhou, Meitan Wang, Bin Dong

TL;DR本研究针对指令调优的大型语言模型（LLMs）的安全机制进行探讨，发现重加权MLP神经元会显著削弱模型的安全性，尤其是在句末推理时。提出的两种新型白盒破解方法增强了对已知和未知有害提示的攻击效果，展示了在多种开源LLM中的强大表现，并加深了对LLMs内部机制的理解。

Abstract

In this paper, we investigate the safety mechanisms of instruction fine-tuned large language models (LLMs). We discover that re-weighting MLP neurons can significantly compromise a model's safety, especially for

发现论文，激发创造

潜在破解: 用于评估大型语言模型文本安全和输出鲁棒性的基准测试

本研究运用诸如指令调整和来自人类或人工智能反馈的强化学习等技术，提出了一个潜在的越狱Prompts数据集，旨在全面研究大型语言模型的文本安全性和输出鲁棒性，结果表明当前的LLMs不仅偏爱某些指令动词，而且在显式正常指令中存在不同的越狱率，这意味着在显式正常指令中的指令动词将不同程度地增强模型生成不安全内容的概率。

Jul, 2023

狼穿羊皮：通用嵌套越狱引导轻易蒙骗大型语言模型

基于自动生成的破解提示，我们提出了ReNeLLM框架来改进大型语言模型的攻击成功率，同时降低时间成本；我们的研究揭示了当前防御方法在保护大型语言模型方面的不足，并从提示执行优先级的角度进行了详细的分析和讨论。

Nov, 2023

分析LLMs的内在响应倾向性：现实世界的指令驱动越狱

在本研究中，我们引入一种新型越狱攻击方法（RADIAL），通过两个步骤：1）固有回应倾向分析：分析大型语言模型对真实世界指令的固有肯定和拒绝倾向。2）真实世界指令驱动的越狱攻击：根据我们的分析，我们选择若干真实世界指令，并嵌入恶意指令以扩大大型语言模型生成有害回应的潜力。我们的方法在三个开源的人类对齐的大型语言模型上，对中文和英文的恶意指令均取得了出色的越狱攻击表现。此外，我们进行了详细的消融实验证明了我们核心思想“固有回应倾向分析”的有效性。我们的探索还揭示了大型语言模型易受诱导产生更详细有害回应的漏洞。

Dec, 2023

通过特定层编辑来防御针对大型语言模型的越狱攻击

通过Layer-specific Editing (LED)方法，本研究探讨了大型语言模型（LLMs）对有害提示的反应，并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐，可以显著提高LLMs对破解攻击的适应性。

May, 2024

对抗调整：为LLMs防御越狱攻击

通过优化包含对抗性提示及其安全响应的数据集，我们提出了一个两阶段的对抗调整框架，用于增强大型语言模型在防御能力方面的广义性，实验证明了我们方法的优越性，并展示了它作为可传输防御机制的潜力。

Jun, 2024

通过模糊输入对大型语言模型进行越狱

通过采用ObscurePrompt方法，从模糊的文本入手，并利用强大的LLM进行迭代转换，增强攻击的稳健性，从而提高对LLM的破解效果，并改进先前的方法，以增强LLM的对齐性能。

Jun, 2024

大型语言模型的越狱攻击与防御：综述

通过提出全面详细的破防攻击和防御方法分类体系，本研究旨在启发未来的研究和实际应用，增强对大语言模型在对抗性攻击中的安全性保障，为发展更安全的大语言模型奠定基础。

Jul, 2024

监狱破解解药：通过稀疏表示调整实现大型语言模型的运行时安全-效用平衡

本研究针对大型语言模型（LLMs）在确保安全性与效用之间面临的挑战，提出了“监狱破解解药”方法。该方法通过在推理过程中操作模型内部状态的稀疏子集，实现了实时调整安全偏好的能力，显著提高了安全性而不影响模型的实用性。实验证明，调整约5%的内部状态即可与修改整个状态同样有效，表明该方法的高效性和实用性。

Oct, 2024

利用任务过载实现对大型语言模型的可扩展越狱攻击

本研究解决了大型语言模型在越狱攻击中的脆弱性，现有方法无法灵活调整攻击强度。我们提出了一种新颖的可扩展越狱攻击，通过占用计算资源来预先触发安全政策的激活，以实现高成功率的安全措施绕过。实验结果表明，该方法在各种模型规模上都表现良好，揭示了当前LLM安全设计中的关键漏洞。

Oct, 2024

大型语言模型的多轮越狱攻击

本研究旨在解决大型语言模型在应对越狱攻击时的安全隐患。这项研究提出了一种多轮越狱方法，通过将危险提示重新分解为一系列较少有害的子问题，成功绕过模型的安全检查。实验结果显示，该方法在处理越狱攻击时的成功率高达94%。

Oct, 2024