利用上下文对抗性游戏防御越狱引发事件

Feb, 2024

利用上下文对抗性游戏防御越狱引发事件

Defending Jailbreak Prompts via In-Context Adversarial Game

Yujun Zhou, Yufei Han, Haomin Zhuang, Taicheng Guo, Kehan Guo...

TL;DR利用深度学习和大型语言模型 (Large Language Models) 的对抗训练方法，引入了以环境为背景的对抗性游戏 (In-Context Adversarial Game, ICAG)，以动态扩展知识来抵御越狱攻击，而无需进行精调。ICAG 采用迭代过程提升防御和攻击代理的能力，从而有效降低了新生成的越狱提示对 LLMs 的成功攻击率，且展现了对其他 LLMs 的可转移能力，显示出其作为多功能防御机制的潜力。

Abstract

large language models (LLMs) demonstrate remarkable capabilities across diverse applications. However, concerns regarding their security, particularly the vulnerability to →

large language models security in-context adversarial game jailbreak attacks agent learning

发现论文，激发创造

使用少量上下文示例对越狱和防卫对齐的语言模型进行训练

通过提供少量上下文演示数据，不需要微调，我们发现大型语言模型可以被操纵以增加或减少越狱的概率。我们提出了越狱攻击和守护方法，通过恶意上下文引导模型生成有害输出，并通过拒绝回答有害提示的演示来增强模型的鲁棒性。我们的实验表明，越狱攻击和守护方法在增加或减少敌对越狱攻击成功率方面是有效的，这为影响大型语言模型行为并提高其安全性和对齐性提供了新的视角。

Oct, 2023

对抗调整：为 LLMs 防御越狱攻击

通过优化包含对抗性提示及其安全响应的数据集，我们提出了一个两阶段的对抗调整框架，用于增强大型语言模型在防御能力方面的广义性，实验证明了我们方法的优越性，并展示了它作为可传输防御机制的潜力。

Jun, 2024

利用多轮互动增强上下文的越狱攻击

大型语言模型对越狱攻击很容易受到攻击，本研究提出了一种基于上下文互动的攻击形式，通过操作模型的回应引导其透露有害信息。在四个不同的大型语言模型上进行实验证明了该攻击的有效性，并且该攻击可以在不同大型语言模型之间转移。

Feb, 2024

RedAgent: 上下文感知的自主语言代理对抗大型语言模型

最近，先进的大型语言模型（LLMs）如 GPT-4 已经被集成到许多实际应用中，如 Code Copilot。这些应用极大地扩展了 LLMs 的攻击面，使它们面临各种威胁。其中，通过越狱提示导致毒性反应的越狱攻击引发了严重的安全担忧。为了识别这些威胁，越来越多的红方测试方法通过制作越狱提示来模拟潜在的对抗场景，以测试目标 LLM。然而，现有的红方测试方法没有考虑不同场景下 LLM 的独特漏洞，导致很难调整越狱提示以发现特定上下文中的漏洞。同时，这些方法仅使用少量变异操作来改进越狱模板，缺乏适应不同场景的自动化和可伸缩性。为了实现上下文感知和高效的红方测试，我们将现有的攻击抽象成一个连贯的概念，称为 “越狱策略”，并提出了一个名为 RedAgent 的多智能体 LLM 系统，利用这些策略生成上下文感知的越狱提示。通过在额外的内存缓冲区中自我反思上下文反馈，RedAgent 不断学习如何利用这些策略在特定上下文中实现有效的越狱。大量的实验证明我们的系统可以用仅五个查询越狱大部分黑盒 LLMs，将现有红方测试方法的效率提高了两倍。此外，RedAgent 可以更高效地越狱定制化的 LLM 应用。通过针对 GPTs 上的应用生成上下文感知的越狱提示，我们仅使用每个漏洞两个查询就发现了这些实际应用的 60 个严重漏洞。我们已经报告了所发现的所有问题，并与 OpenAI 和 Meta 沟通修复了这些漏洞。

Jul, 2024

针对安全定向 LLM 的改进对抗样本生成

通过借鉴转移式攻击的思想，结合渐变式对抗性提示生成过程，我们改进了自动生成的对抗性示例以攻击白盒大语言模型，取得了显著的性能提升，同时也提出了新的见解和适当的方法组合。

May, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

LLMs 在实践中可以自我防御破解：一篇展望性论文

Jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large language models. This paper proposes a lightweight yet practical defense called SELFDEFEND, which can defend against all existing jailbreak attacks with minimal delay for jailbreak prompts and negligible delay for normal user prompts.

Feb, 2024

大型语言模型的越狱攻击与防御：综述

通过提出全面详细的破防攻击和防御方法分类体系，本研究旨在启发未来的研究和实际应用，增强对大语言模型在对抗性攻击中的安全性保障，为发展更安全的大语言模型奠定基础。

Jul, 2024

通过对抗性上下文学习劫持大型语言模型

通过引入一种新的对上下文学习的颠覆性攻击方法，本文展示了一种能够利用 LMLs 来生成针对性响应的方法，并通过对各种任务和数据集的广泛实验结果证明了其有效性。

Nov, 2023

GUARD：通过角色扮演生成自然语言越狱以测试大型语言模型的指南遵循性

使用角色扮演系统结合知识图谱生成监狱破解方法，验证 LLMs 对监管规定的遵从性，并在不同模态下展示 GUARD 的多样性和对更安全可靠的 LLM 应用的有价值见解。

Feb, 2024