使用少量上下文示例对越狱和防卫对齐的语言模型进行训练

Oct, 2023

使用少量上下文示例对越狱和防卫对齐的语言模型进行训练

Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations

Zeming Wei, Yifei Wang, Yisen Wang

TL;DR通过提供少量上下文演示数据，不需要微调，我们发现大型语言模型可以被操纵以增加或减少越狱的概率。我们提出了越狱攻击和守护方法，通过恶意上下文引导模型生成有害输出，并通过拒绝回答有害提示的演示来增强模型的鲁棒性。我们的实验表明，越狱攻击和守护方法在增加或减少敌对越狱攻击成功率方面是有效的，这为影响大型语言模型行为并提高其安全性和对齐性提供了新的视角。

Abstract

large language models (LLMs) have shown remarkable success in various tasks, but concerns about their safety and the potential for generating malicious content have emerged. In this paper, we explore the power of In-Context Learning (ICL) in manipulating the alignment ability of LLMs.

large language models in-context learning jailbreaking in-context attack in-context defense

发现论文，激发创造

通过对抗性上下文学习劫持大型语言模型

通过引入一种新的对上下文学习的颠覆性攻击方法，本文展示了一种能够利用 LMLs 来生成针对性响应的方法，并通过对各种任务和数据集的广泛实验结果证明了其有效性。

Nov, 2023

利用上下文对抗性游戏防御越狱引发事件

利用深度学习和大型语言模型 (Large Language Models) 的对抗训练方法，引入了以环境为背景的对抗性游戏 (In-Context Adversarial Game, ICAG)，以动态扩展知识来抵御越狱攻击，而无需进行精调。ICAG 采用迭代过程提升防御和攻击代理的能力，从而有效降低了新生成的越狱提示对 LLMs 的成功攻击率，且展现了对其他 LLMs 的可转移能力，显示出其作为多功能防御机制的潜力。

Feb, 2024

上下文对齐能走多远？探索上下文对齐的现状

通过分析 In-Context Alignment（ICA）的机制和适用性，本研究发现示例部分对提升模型对齐能力至关重要，同时还评估了 ICA 在不同对齐任务中的零 - shot 能力，结果显示相较于参数微调方法，ICA 在基于知识和工具应用任务上表现出更好的性能，然而在多轮对话和按指示执行任务方面仍存在某些局限性。

Jun, 2024

针对大型语言模型的对抗性演示攻击

本文研究了使用演示数据对大型语言模型（LLMs）进行上下文学习（ICL）的安全问题，并通过 TextAttack 提出了一种只操纵演示而不改变输入的 ICL 攻击方法，结果表明，随着演示数量的增加，ICL 的鲁棒性会降低，并呼吁对 ICL 的鲁棒性进行广泛研究，特别是在 LLMs 的发展中。

May, 2023

利用多轮互动增强上下文的越狱攻击

大型语言模型对越狱攻击很容易受到攻击，本研究提出了一种基于上下文互动的攻击形式，通过操作模型的回应引导其透露有害信息。在四个不同的大型语言模型上进行实验证明了该攻击的有效性，并且该攻击可以在不同大型语言模型之间转移。

Feb, 2024

局部差分私有化上下文学习

基于预训练语言模型和隐私保护的局部差分隐私框架中的语境学习（ICL）的分析研究

May, 2024

MT 中 LLM 的上下文学习能力的实证分析

探讨了大型语言模型在上下文学习中的能力，并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为，表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。

Jan, 2024

大型语言模型中的通用漏洞：上下文学习反向攻击

通过毒化示例和提示，ICLAttack 攻击方法能够操纵大型语言模型的行为，而不需要额外的微调，从而提高了攻击方法的自然隐蔽性。

Jan, 2024

上下文学习可以重新学习被禁止的任务

通过研究 LLMs 模型的安全训练以及禁止任务的学习，本文探讨了在明确禁止模型回答任务的情况下，是否可以使用上下文学习（ICL）重新学习这些任务。研究结果显示，ICL 可以成功地破坏安全训练，从而带来了重大的安全风险。

Feb, 2024

关于现场学习的调查

本文概述了大型语言模型的新范式 —— 上下文学习，并探讨了训练策略和演示设计策略等高级技术，以及上下文学习所面临的挑战和未来方向。

Dec, 2022