大型语言模型中的通用漏洞:上下文学习反向攻击
通过引入一种新的对上下文学习的颠覆性攻击方法,本文展示了一种能够利用 LMLs 来生成针对性响应的方法,并通过对各种任务和数据集的广泛实验结果证明了其有效性。
Nov, 2023
本文研究了使用演示数据对大型语言模型(LLMs)进行上下文学习(ICL)的安全问题,并通过 TextAttack 提出了一种只操纵演示而不改变输入的 ICL 攻击方法,结果表明,随着演示数量的增加,ICL 的鲁棒性会降低,并呼吁对 ICL 的鲁棒性进行广泛研究,特别是在 LLMs 的发展中。
May, 2023
利用预训练的密集检索模型,我们在有限样本设置中的常见意图分类数据集上,以及特定情况下的细粒度情感分类中,优于微调性能。通过多个实验,我们分析了模型对于上下文示例和不同模型规模的利用情况,并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。
Sep, 2023
通过提供少量上下文演示数据,不需要微调,我们发现大型语言模型可以被操纵以增加或减少越狱的概率。我们提出了越狱攻击和守护方法,通过恶意上下文引导模型生成有害输出,并通过拒绝回答有害提示的演示来增强模型的鲁棒性。我们的实验表明,越狱攻击和守护方法在增加或减少敌对越狱攻击成功率方面是有效的,这为影响大型语言模型行为并提高其安全性和对齐性提供了新的视角。
Oct, 2023
通过研究 LLMs 模型的安全训练以及禁止任务的学习,本文探讨了在明确禁止模型回答任务的情况下,是否可以使用上下文学习(ICL)重新学习这些任务。研究结果显示,ICL 可以成功地破坏安全训练,从而带来了重大的安全风险。
Feb, 2024
训练指导调谐模型的众包数据集存在安全隐患,攻击者可通过少量恶意指令注入后门来控制模型行为,导致持久性后门并在多个数据集中实现 90%的攻击成功率,同时需要更加强大的防御措施来应对数据污染攻击,并重视指导众包中数据的质量。
May, 2023
在这篇论文中,研究人员提出了一种新的自适应上下文学习 (AICL) 方法,通过预测分类器的 Softmax 后验概率来动态调整在推断中使用的示例数,以提高文本分类任务的性能。
Mar, 2024
该研究论文侧重于细调方法,系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击,并讨论了未来研究中关键问题,例如无需细调的攻击算法和更隐蔽的攻击算法,以填补现有后门攻击调查的知识空白。
Jun, 2024
当模型的上下文长度不断增加时,可以提供的演示数量接近整个训练数据集的规模。在多个数据集和模型上,我们研究了在这种极端规模下的上下文学习(ICL)的行为。我们展示了对于许多具有大型标签空间的数据集,性能在数百或数千个演示中仍在增加。与示例检索和微调相比,示例检索在较短的上下文长度下表现出色,但随着更多的演示,增益减弱;微调比 ICL 更依赖数据,但有时可以通过额外数据超过长上下文 ICL 的性能。我们在 ICL 设置中使用这个作为试验平台来研究上下文学习和长上下文模型的几个特性。我们展示了长上下文 ICL 比短上下文 ICL 对于随机输入乱序不太敏感,相同标签示例的分组可能对性能产生负面影响,并且我们观察到的性能提升并非来自一起编码多个示例的累积增益。我们得出结论,尽管长上下文 ICL 可能出人意料地有效,但其中大部分增益来自于重新关注类似示例而非任务学习。
Apr, 2024