通过目标优先级保护大型语言模型抵御越狱攻击

Nov, 2023

通过目标优先级保护大型语言模型抵御越狱攻击

Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization

Zhexin Zhang, Junxiao Yang, Pei Ke, Minlie Huang

TL;DR通过将目标优先级整合到训练和推理阶段，我们提出了一种对抗越狱攻击的方法，显著降低了越狱攻击的成功率，并减少了大型语言模型的潜在安全风险。

Abstract

large language models (LLMs) continue to advance in their capabilities, yet this progress is accompanied by a growing array of safety risks. While significant attention has been dedicated to exploiting weaknesses

large language models safety risks jailbreaking attacks goal prioritization llms' capability and safety

发现论文，激发创造

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

大型语言模型的越狱攻击与防御：综述

通过提出全面详细的破防攻击和防御方法分类体系，本研究旨在启发未来的研究和实际应用，增强对大语言模型在对抗性攻击中的安全性保障，为发展更安全的大语言模型奠定基础。

Jul, 2024

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

修剪以增加对齐 LLMs 的防越狱能力，无需微调

通过修剪大型语言模型（LLM）的参数，可以显著提高其对 Jailbreaking 提示的抵抗力，而且不需要额外的训练，并且在标准基准测试中不会牺牲性能。此外，我们引入了一个由 225 个有害任务组成的精选数据集，并将其插入到 10 个不同的 Jailbreaking 提示中，结果显示修剪有助于 LLM 集中注意力于与提示相关的标记。最后，我们的实验揭示了著名的聊天模型（如 LLaMA-2 Chat，Vicuna 和 Mistral Instruct）对 Jailbreaking 攻击非常容易受到攻击，某些类别的成功率接近 70-100％。这些结果凸显了修剪作为提高 LLM 的安全性、可靠性和其他所期望行为的可推广方法的潜力。

Jan, 2024

分析型越狱攻击对大型语言模型的研究

我们进一步探索了大型语言模型在监狱破解攻击方面的边界，并提出了基于分析的监狱破解（ABJ）方法。通过在各种开源和闭源大型语言模型上进行详细评估，我们的研究展示了基于分析的监狱破解的攻击效果和效率的最新成果。我们的研究强调了优先考虑和增强大型语言模型的安全性以减少滥用风险的重要性。

Jul, 2024

大规模语言模型中的多语言越狱挑战

大型语言模型（LLMs）存在潜在的安全隐患，因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战，并针对意外和恶意的风险场景进行了探讨。实验结果显示，在多语言环境中，通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内容。

Oct, 2023

SmoothLLM: 对抗越狱攻击的大型语言模型防御

为了解决大型语言模型在破解攻击中的脆弱性，提出了 SmoothLLM 算法，通过对输入的随机扰动和聚合进行检测，降低了攻击成功率，并在攻击缓解上提供了可证明的保证。

Oct, 2023

JailBreakV-28K: 评估多模态大语言模型抵抗破解攻击的基准测试

本文研究了对抗大型多模态语言模型（MLLMs）的问题，通过引入 JailBreakV-28K 评估 LLM 越狱技术对 MLLM 的可迁移性，并评估了 MLLM 对多样越狱攻击的鲁棒性，结果表明 MLLM 存在来自文本处理功能的关键脆弱性，强调了未来在文本和图像输入方面解决 MLLM 对齐漏洞的迫切性。

Apr, 2024

AttackEval：评估大型语言模型越狱攻击的有效性

我们采用两种不同的评估框架来评估 GPT-4 和 LLaMa2 等大型语言模型上越狱攻击的有效性，并开发了一个专门针对越狱任务的综合数据集，为当前研究提供了关键基准，并在未来的研究中建立了一个基础资源。通过与传统评估方法的仔细比较，我们发现我们的评估方法与基准趋势保持一致，同时提供了更深入和详细的评估。我们相信，通过准确评估越狱任务中攻击提示的有效性，我们的工作为评估更广泛的类似或更复杂的提示注入任务奠定了坚实的基础，有望从根本上改变这个领域。

Jan, 2024