AutoDefense: 多代理 LLM 防御封顶攻击

Mar, 2024

AutoDefense: 多代理 LLM 防御封顶攻击

AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks

Yifan Zeng, Yiran Wu, Xiao Zhang, Huazheng Wang, Qingyun Wu

TL;DR通过大规模的实验，我们验证了 AutoDefense 对改进对抗越狱攻击的鲁棒性具有有效性，并且能够在正常用户请求时保持性能。

Abstract

Despite extensive pre-training and fine-tuning in moral alignment to prevent generating harmful information at user request, large language models (LLMs) remain vulnerable to jailbreak attacks. In this paper, we

large language models autodefense response-filtering multi-agent defense framework jailbreak attacks

发现论文，激发创造

SelfDefend: LLMs 能够以实用方式自我防护免受越狱攻击

这篇论文介绍了一种名为 SelfDefend 的通用 LLM 监狱破解防御框架，通过在正常堆栈中建立影子 LLM 防御实例并与目标 LLM 实例协同工作来保护目标 LLM 实例。测量结果表明，SelfDefend 可使 GPT-3.5 的攻击成功率下降 8.97-95.74％（平均 60％），而对正常查询影响微乎其微。同时，通过数据精馏方法调整专用的开源防御模型进一步提高防御的鲁棒性并降低成本。

Jun, 2024

大型语言模型的越狱攻击与防御：综述

通过提出全面详细的破防攻击和防御方法分类体系，本研究旨在启发未来的研究和实际应用，增强对大语言模型在对抗性攻击中的安全性保障，为发展更安全的大语言模型奠定基础。

Jul, 2024

对抗调整：为 LLMs 防御越狱攻击

通过优化包含对抗性提示及其安全响应的数据集，我们提出了一个两阶段的对抗调整框架，用于增强大型语言模型在防御能力方面的广义性，实验证明了我们方法的优越性，并展示了它作为可传输防御机制的潜力。

Jun, 2024

自护：赋予 LLM 保护自身能力

利用自我保护方法 (Self-Guard) 来解决语言模型 (LLM) 被越狱攻击的问题，包括增强模型对有害内容的检测能力以及指导模型在自我响应中进行有害内容检测，实验证明自我保护方法对抵御越狱攻击具有鲁棒性且不会降低 LLM 的性能。

Oct, 2023

打破突破：通过自我完善为 LM 防御越狱攻击重新定义

我们提出了一种自我改进的格式化方法，即使在非安全对齐的语言模型中也能实现出色的安全性，通过将我们的方法与几种防御基线进行评估，证明它是针对越狱攻击最安全的无需训练的方法。此外，我们提出了一种格式化方法，可以在更少的迭代中提高自我改进过程的效率，同时降低攻击成功率。我们还观察到，在安全任务中，非安全对齐的语言模型比安全对齐的语言模型表现更好，给出更有帮助且安全的回应。总之，我们的研究发现可以在减少计算成本的同时减少安全风险，使非安全的语言模型可以在真实世界的服务中轻松应用。

Feb, 2024

学会伪装：通过多智能体攻击者 - 伪装者游戏避免 LLM 的拒绝回应

通过多智能体进攻 - 伪装博弈方法弱化大模型的防御机制，使其能够安全回应攻击者并隐藏防御意图。

Apr, 2024

通过特定层编辑来防御针对大型语言模型的越狱攻击

通过 Layer-specific Editing (LED) 方法，本研究探讨了大型语言模型（LLMs）对有害提示的反应，并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐，可以显著提高 LLMs 对破解攻击的适应性。

May, 2024

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

LLMs 在实践中可以自我防御破解：一篇展望性论文

Jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large language models. This paper proposes a lightweight yet practical defense called SELFDEFEND, which can defend against all existing jailbreak attacks with minimal delay for jailbreak prompts and negligible delay for normal user prompts.

Feb, 2024

恶魔天才：深入探究基于 LLM 的智能体的安全性

通过对大型语言模型（LLMs）进行安全评估，揭示了 LLM-based agents 面临的挑战、安全漏洞以及对未来研究的启示。

Nov, 2023