勤奋的鲍勃通过及时对抗调整反击越狱

Feb, 2024

勤奋的鲍勃通过及时对抗调整反击越狱

Studious Bob Fight Back Against Jailbreaking via Prompt Adversarial Tuning

Yichuan Mo, Yuji Wang, Zeming Wei, Yisen Wang

TL;DR我们提出了一种名为 Prompt Adversarial Tuning (PAT) 的方法来训练一个防御控制机制，将其作为用户提示的前缀来实施我们的防御策略，该方法在黑盒和白盒设置中表现有效，在几乎不影响操作效率的情况下，将高级攻击的成功率降低到几乎为 0，同时仍然保持对简单问题的良性回答率为 80%。我们的研究在 LLM 安全领域可能为未来的探索开辟新的视角。

Abstract

Although large language models (LLMs) have achieved tremendous success in various applications, they are also susceptible to certain prompts that can induce them to bypass built-in safety measures and provide dangerous or illegal content, a phenomenon known as →

large language models jailbreak prompt adversarial tuning defense strategy llm security

发现论文，激发创造

对抗调整：为 LLMs 防御越狱攻击

通过优化包含对抗性提示及其安全响应的数据集，我们提出了一个两阶段的对抗调整框架，用于增强大型语言模型在防御能力方面的广义性，实验证明了我们方法的优越性，并展示了它作为可传输防御机制的潜力。

Jun, 2024

AdvPrompter: LLMs 的快速自适应敌对提示

通过使用 AdvPrompter 方法，本文提出了一种用于生成人类可读的敌对提示的新方法，生成的提示可以在几秒钟内完成，比现有的基于优化的方法快 800 倍，该方法使得大型语言模型（LLMs）更加抵抗破解攻击而实现高性能。

Apr, 2024

视觉 - 语言模型的对抗提示调整

通过引入 Adversarial Prompt Tuning (AdvPT) 技术，本研究旨在提升视觉 - 语言模型中图像编码器的对抗性鲁棒性，改善对抗攻击的脆弱性，并且结合现有的基于图像处理的防御技术，进一步提高其防御能力。

Nov, 2023

通过双模式对抗启示破解视觉语言模型

利用 Bi-Modal Adversarial Prompt Attack 方法，通过优化文字和视觉提示共同实施监狱突破攻击，大幅提高攻击成功率。

Jun, 2024

语言模型的敌对微调：一种用于生成和检测问题内容的迭代优化方法

使用对抗微调的新型双阶段优化技术解决大型语言模型中意外有害内容生成的挑战，并通过分类准确性评估方法展示了优化过程中，判断模型在具有挑战性的数据集上的性能提升。

Aug, 2023

针对安全定向 LLM 的改进对抗样本生成

通过借鉴转移式攻击的思想，结合渐变式对抗性提示生成过程，我们改进了自动生成的对抗性示例以攻击白盒大语言模型，取得了显著的性能提升，同时也提出了新的见解和适当的方法组合。

May, 2024

通过特定层编辑来防御针对大型语言模型的越狱攻击

通过 Layer-specific Editing (LED) 方法，本研究探讨了大型语言模型（LLMs）对有害提示的反应，并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐，可以显著提高 LLMs 对破解攻击的适应性。

May, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

SmoothLLM: 对抗越狱攻击的大型语言模型防御

为了解决大型语言模型在破解攻击中的脆弱性，提出了 SmoothLLM 算法，通过对输入的随机扰动和聚合进行检测，降低了攻击成功率，并在攻击缓解上提供了可证明的保证。

Oct, 2023

通过自对抗攻击和系统提示实施对 GPT-4V 的越狱

通过从 GPT-4V 中成功窃取内部系统提示并使用 SASP（自我对抗攻击系统提示）方法进行监狱破解，本研究发现了 Multimodal Large Language Models（MLLMs）的潜在安全风险并提出了相应的防御方法，以显著降低监狱破解的成功率。

Nov, 2023