AutoDefense: 多代理 LLM 防御封顶攻击
这篇论文介绍了一种名为 SelfDefend 的通用 LLM 监狱破解防御框架,通过在正常堆栈中建立影子 LLM 防御实例并与目标 LLM 实例协同工作来保护目标 LLM 实例。测量结果表明,SelfDefend 可使 GPT-3.5 的攻击成功率下降 8.97-95.74%(平均 60%),而对正常查询影响微乎其微。同时,通过数据精馏方法调整专用的开源防御模型进一步提高防御的鲁棒性并降低成本。
Jun, 2024
通过优化包含对抗性提示及其安全响应的数据集,我们提出了一个两阶段的对抗调整框架,用于增强大型语言模型在防御能力方面的广义性,实验证明了我们方法的优越性,并展示了它作为可传输防御机制的潜力。
Jun, 2024
利用自我保护方法 (Self-Guard) 来解决语言模型 (LLM) 被越狱攻击的问题,包括增强模型对有害内容的检测能力以及指导模型在自我响应中进行有害内容检测,实验证明自我保护方法对抵御越狱攻击具有鲁棒性且不会降低 LLM 的性能。
Oct, 2023
我们提出了一种自我改进的格式化方法,即使在非安全对齐的语言模型中也能实现出色的安全性,通过将我们的方法与几种防御基线进行评估,证明它是针对越狱攻击最安全的无需训练的方法。此外,我们提出了一种格式化方法,可以在更少的迭代中提高自我改进过程的效率,同时降低攻击成功率。我们还观察到,在安全任务中,非安全对齐的语言模型比安全对齐的语言模型表现更好,给出更有帮助且安全的回应。总之,我们的研究发现可以在减少计算成本的同时减少安全风险,使非安全的语言模型可以在真实世界的服务中轻松应用。
Feb, 2024
通过 Layer-specific Editing (LED) 方法,本研究探讨了大型语言模型(LLMs)对有害提示的反应,并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐,可以显著提高 LLMs 对破解攻击的适应性。
May, 2024
该研究对破解大型语言模型(LLMs)及其防御技术进行了全面分析,评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果,并释放了数据集和测试框架,以促进 LLM 安全领域的进一步研究。
Feb, 2024
Jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large language models. This paper proposes a lightweight yet practical defense called SELFDEFEND, which can defend against all existing jailbreak attacks with minimal delay for jailbreak prompts and negligible delay for normal user prompts.
Feb, 2024
对大型语言模型 (也称为 LLMs) 的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024