通过对抗性上下文学习劫持大型语言模型

Nov, 2023

通过对抗性上下文学习劫持大型语言模型

Hijacking Large Language Models via Adversarial In-Context Learning

Yao Qiang, Xiangyu Zhou, Dongxiao Zhu

TL;DR通过引入一种新的对上下文学习的颠覆性攻击方法，本文展示了一种能够利用 LMLs 来生成针对性响应的方法，并通过对各种任务和数据集的广泛实验结果证明了其有效性。

Abstract

in-context learning (ICL) has emerged as a powerful paradigm leveraging llms for specific tasks by utilizing labeled examples as demonstrations in the precondition prompts. Despite its promising performance, ICL

in-context learning llms adversarial attacks transferable attack llm hijacking attack

发现论文，激发创造

针对大型语言模型的对抗性演示攻击

本文研究了使用演示数据对大型语言模型（LLMs）进行上下文学习（ICL）的安全问题，并通过 TextAttack 提出了一种只操纵演示而不改变输入的 ICL 攻击方法，结果表明，随着演示数量的增加，ICL 的鲁棒性会降低，并呼吁对 ICL 的鲁棒性进行广泛研究，特别是在 LLMs 的发展中。

May, 2023

使用少量上下文示例对越狱和防卫对齐的语言模型进行训练

通过提供少量上下文演示数据，不需要微调，我们发现大型语言模型可以被操纵以增加或减少越狱的概率。我们提出了越狱攻击和守护方法，通过恶意上下文引导模型生成有害输出，并通过拒绝回答有害提示的演示来增强模型的鲁棒性。我们的实验表明，越狱攻击和守护方法在增加或减少敌对越狱攻击成功率方面是有效的，这为影响大型语言模型行为并提高其安全性和对齐性提供了新的视角。

Oct, 2023

大型语言模型中的通用漏洞：上下文学习反向攻击

通过毒化示例和提示，ICLAttack 攻击方法能够操纵大型语言模型的行为，而不需要额外的微调，从而提高了攻击方法的自然隐蔽性。

Jan, 2024

通过对抗性内上下文学习进行提示优化

我们提出了一种新的方法，Adversarial In-Context Learning (adv-ICL)，通过使用一个 LLM 作为生成器，另一个作为鉴别器，以及第三个作为提示修改器来优化背景学习中的提示。我们表明，adv-ICL 在包括摘要、算术推理、机器翻译、数据生成和 MMLU 和 big-bench 难度基准等 11 个生成和分类任务上，相对于最先进的提示优化技术取得了显著的改进。此外，由于我们的方法使用预训练模型，并且仅更新提示而不是模型参数，它在计算上是高效的，易于扩展到任何 LLM 和任务，并且在资源有限的环境中是有效的。

Dec, 2023

局部差分私有化上下文学习

基于预训练语言模型和隐私保护的局部差分隐私框架中的语境学习（ICL）的分析研究

May, 2024

MT 中 LLM 的上下文学习能力的实证分析

探讨了大型语言模型在上下文学习中的能力，并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为，表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。

Jan, 2024

评估大型语言模型的基于检索上下文学习的对抗鲁棒性

通过引入检索增强联系学习方法，利用检索器提取语义相关示例作为演示，提高模型对测试样本的攻击稳健性，并引入一种无需训练的对抗防御方法 DARD，通过丰富示例池来改进模型性能和稳健性。

May, 2024

探究上下文学习行为：与监督学习的比较

大型语言模型（LLMs）在上下文学习（ICL）方面展示了显着的能力，在没有明确预训练的情况下，仅通过少量的训练示例学习新任务。然而，尽管 LLMs 获得了成功，对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中，为了对 ICL 的学习行为有所了解，我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs，并研究它们在一系列分类任务中在标签扰动（即嘈杂标签和标签不平衡）下的表现。通过广泛的实验证明，我们首先发现黄金标签对下游上下文性能有显著影响，尤其是对于大型语言模型；然而，对于所有模型大小，不平衡标签对 ICL 的影响较小。其次，通过与 SL 进行比较，我们实证表明 ICL 对标签扰动的敏感性较低，并且随着模型大小的增加，ICL 逐渐获得与 SL 相当的性能。

Jul, 2023

关于现场学习的调查

本文概述了大型语言模型的新范式 —— 上下文学习，并探讨了训练策略和演示设计策略等高级技术，以及上下文学习所面临的挑战和未来方向。

Dec, 2022

具有大型语言模型的语境中感知歧义学习

通过对三个文本分类任务的广泛实验，我们发现在选择演示示例时，不仅选择语义上相似的演示示例有益，还选择那些有助于解决测试示例周围固有标签模糊性的演示示例。有趣的是，我们发现包括之前被 LLM 错误分类并且与测试示例的决策边界相近的演示示例能够带来最大的性能提升。

Sep, 2023