通过对抗性上下文学习劫持大型语言模型
本文研究了使用演示数据对大型语言模型(LLMs)进行上下文学习(ICL)的安全问题,并通过 TextAttack 提出了一种只操纵演示而不改变输入的 ICL 攻击方法,结果表明,随着演示数量的增加,ICL 的鲁棒性会降低,并呼吁对 ICL 的鲁棒性进行广泛研究,特别是在 LLMs 的发展中。
May, 2023
通过提供少量上下文演示数据,不需要微调,我们发现大型语言模型可以被操纵以增加或减少越狱的概率。我们提出了越狱攻击和守护方法,通过恶意上下文引导模型生成有害输出,并通过拒绝回答有害提示的演示来增强模型的鲁棒性。我们的实验表明,越狱攻击和守护方法在增加或减少敌对越狱攻击成功率方面是有效的,这为影响大型语言模型行为并提高其安全性和对齐性提供了新的视角。
Oct, 2023
我们提出了一种新的方法,Adversarial In-Context Learning (adv-ICL),通过使用一个 LLM 作为生成器,另一个作为鉴别器,以及第三个作为提示修改器来优化背景学习中的提示。我们表明,adv-ICL 在包括摘要、算术推理、机器翻译、数据生成和 MMLU 和 big-bench 难度基准等 11 个生成和分类任务上,相对于最先进的提示优化技术取得了显著的改进。此外,由于我们的方法使用预训练模型,并且仅更新提示而不是模型参数,它在计算上是高效的,易于扩展到任何 LLM 和任务,并且在资源有限的环境中是有效的。
Dec, 2023
探讨了大型语言模型在上下文学习中的能力,并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为,表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。
Jan, 2024
通过引入检索增强联系学习方法,利用检索器提取语义相关示例作为演示,提高模型对测试样本的攻击稳健性,并引入一种无需训练的对抗防御方法 DARD,通过丰富示例池来改进模型性能和稳健性。
May, 2024
大型语言模型(LLMs)在上下文学习(ICL)方面展示了显着的能力,在没有明确预训练的情况下,仅通过少量的训练示例学习新任务。然而,尽管 LLMs 获得了成功,对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中,为了对 ICL 的学习行为有所了解,我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs,并研究它们在一系列分类任务中在标签扰动(即嘈杂标签和标签不平衡)下的表现。通过广泛的实验证明,我们首先发现黄金标签对下游上下文性能有显著影响,尤其是对于大型语言模型;然而,对于所有模型大小,不平衡标签对 ICL 的影响较小。其次,通过与 SL 进行比较,我们实证表明 ICL 对标签扰动的敏感性较低,并且随着模型大小的增加,ICL 逐渐获得与 SL 相当的性能。
Jul, 2023
通过对三个文本分类任务的广泛实验,我们发现在选择演示示例时,不仅选择语义上相似的演示示例有益,还选择那些有助于解决测试示例周围固有标签模糊性的演示示例。有趣的是,我们发现包括之前被 LLM 错误分类并且与测试示例的决策边界相近的演示示例能够带来最大的性能提升。
Sep, 2023