Eraser: 大语言模型中逆向防御通过遗忘有害知识

Apr, 2024

Eraser: 大语言模型中逆向防御通过遗忘有害知识

Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge

Weikai Lu, Ziqian Zeng, Jianwei Wang, Zhengdong Lu, Zelin Chen...

TL;DR本文介绍了一种名为 Eraser 的新型防御方法，它能够有效减少各种攻击对模型的越狱成功率，而不影响模型的一般能力。

Abstract

jailbreaking attacks can enable large language models (LLMs) to bypass the safeguard and generate harmful content. Existing jailbreaking d

jailbreaking attacks large language models defense method harmful content eraser

发现论文，激发创造

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

知识破解：一知识点价值一次攻击

通过知识生成越狱攻击以评估大型语言模型在特定领域的安全性，证明了越狱生成器在生成与给定知识相关且对目标语言模型有害的越狱攻击方面的有效性。

Jun, 2024

通过伪装和重构在少量查询中解封大型语言模型的方法

通过识别安全微调中的偏差漏洞并设计一种称为 DRA（伪装和重构攻击）的黑盒越狱方法，我们在 LLMs 安全方面开创了理论基础。我们评估了 DRA 在各种开源和闭源模型上的效果，并展示了最先进的越狱成功率和攻击效率，特别是在 LLM 聊天机器人 GPT-4 上，DRA 拥有 90％的攻击成功率。

Feb, 2024

理解越狱成功：大型语言模型中潜空间动力学的研究

对话式大型语言模型的研究中发现，监狱破解技术可以绕过模型的安全保障，通过分析模型对不同类型的监狱破解输入的激活情况，发现可以从一类监狱破解中提取出能够减少其他类监狱破解效果的监狱破解向量，而这或许意味着不同类型的有效的监狱破解通过相似的内部机制来实现，通过研究有害特征抑制可能的共同机制，提供有利于开发更强大的监狱破解对策的实证证据，为深入理解语言模型中监狱破解动态打下基础。

Jun, 2024

大型语言模型的知识清洗

我们探索了一种知识消毒方法，用于减轻与大型语言模型（LLMs）相关的隐私问题。我们的方法通过微调模型，在查询特定信息时，促使其生成无害回答，如 “我不知道”。实验证实，我们的简单方法不仅最小化了特定知识泄漏，还保留了 LLM 的整体性能。这两个优势加强了对提取攻击的防御，并减少了产生幻觉等有害内容的排放。

Sep, 2023

修剪以增加对齐 LLMs 的防越狱能力，无需微调

通过修剪大型语言模型（LLM）的参数，可以显著提高其对 Jailbreaking 提示的抵抗力，而且不需要额外的训练，并且在标准基准测试中不会牺牲性能。此外，我们引入了一个由 225 个有害任务组成的精选数据集，并将其插入到 10 个不同的 Jailbreaking 提示中，结果显示修剪有助于 LLM 集中注意力于与提示相关的标记。最后，我们的实验揭示了著名的聊天模型（如 LLaMA-2 Chat，Vicuna 和 Mistral Instruct）对 Jailbreaking 攻击非常容易受到攻击，某些类别的成功率接近 70-100％。这些结果凸显了修剪作为提高 LLM 的安全性、可靠性和其他所期望行为的可推广方法的潜力。

Jan, 2024

自护：赋予 LLM 保护自身能力

利用自我保护方法 (Self-Guard) 来解决语言模型 (LLM) 被越狱攻击的问题，包括增强模型对有害内容的检测能力以及指导模型在自我响应中进行有害内容检测，实验证明自我保护方法对抵御越狱攻击具有鲁棒性且不会降低 LLM 的性能。

Oct, 2023

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

面向 LLM 的破解攻击的理解：表示空间分析

通过研究大型语言模型中的有害和无害提示在表示空间中的行为，探讨成功越狱攻击的内在特性，并利用隐藏表示引入现有越狱攻击的目标，通过实验证实上述假设。希望该研究能为理解大型语言模型如何理解有害信息提供新的见解。

Jun, 2024

通过机器遗忘实现更安全的大型语言模型

通过选择性知识否定消除（SKU）框架，我们可以有效地识别和去除大语言模型中的有害知识，同时保持模型对正常提示的有效性。

Feb, 2024