抵御预训练语言模型作为小样本学习器的后门攻击

Sep, 2023

抵御预训练语言模型作为小样本学习器的后门攻击

Defending Pre-trained Language Models as Few-shot Learners against Backdoor Attacks

Zhaohan Xi, Tianyu Du, Changjiang Li, Ren Pang, Shouling Ji...

TL;DR该研究重点探讨了预训练语言模型（PLMs）作为少样本学习器的安全风险，并提出了一种轻量、可插拔且有效的防御方案 MDP，利用掩码灵敏度的差异比较样本的表示，从而鉴别出有显著变化的被污染样本。经实验证明，MDP 在基准数据集和典型攻击上具有较好的效果。

Abstract

pre-trained language models (PLMs) have demonstrated remarkable performance as few-shot learners. However, their security risks under such settings are largely unexplored. In this work, we conduct a pilot study s

pre-trained language models few-shot learners backdoor attacks defense mdp

发现论文，激发创造

对大型语言模型的后门攻击和防御调研：对安全措施的影响

该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Jun, 2024

陷阱设置：通过诱饵捕获和击败预训练语言模型中的后门

本研究旨在设计一种抵御后门攻击的微调过程，使用预训练语言模型并引入蜜罐模块，以吸收后门信息，并通过对中间层表示的约束，在微调过程中防止后门创建。在基准数据集上进行的综合实验证明了我们的防御策略的有效性和鲁棒性，与先前的最新方法相比，攻击成功率大幅降低了 10％至 40％。

Oct, 2023

基于大型语言模型的决策制定中的后门攻击探索

这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击，系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言，作者提出了三种攻击机制和相应的后门优化方法，以攻击 LLM 决策管道中的不同组件：单词注入、场景操纵和知识注入。作者进行了广泛的实验，并展示了他们提出的后门触发器和机制的有效性和隐蔽性。最后，作者批评了自己提出方法的优点和缺点，突出了 LLM 在决策任务中固有的漏洞，并评估了保护 LLM 决策系统的潜在防御方法。

May, 2024

使用后门技术对预训练语言模型进行水印处理

研究表明，通过在预训练模型中嵌入后门触发器作为水印的方式，可以保护知识产权并避免遗忘现象的发生，同时还提出了一种使用常见单词组合作为后门触发器的方法，并在多个数据集上进行了测试。

Oct, 2022

通过模型变异测试实现语言模型后门样本检测

本研究提出了一种基于深度模型突变测试的新型防御方法，可以在 char-level，word-level，sentence-level 以及 style-level 水平上检测恶意后门样本，并在三个基准数据集和三个样式转换数据集上表现出优异的效果。

Jan, 2023

PromptFix: 通过对抗性提示调整进行少样本后门移除

通过对软标记以及对抗优化的使用，提出一种名为 PromptFix 的新型反后门策略，适用于自然语言处理模型中的少样本情景，并通过各种后门攻击实验证实了该方法的有效性以及在存在领域转移时的性能。

Jun, 2024

预训练语言模型的对抗攻击建模为序列决策

本文通过将 PLMs 的对抗攻击任务形式化为一个序列决策问题，并采用强化学习方法找到适当的攻击路径，提出了 SDM-Attack，其在攻击成功率，修改率和语义相似性上都表现出色，并且分析验证了其通用性和可转移性。

May, 2023

在指导调整期间学习对大型语言模型进行毒化

通过设计一种新的数据污染攻击，本研究进一步识别了 LLMs 中的安全风险，并提出了一种梯度引导的后门触发器学习方法，以高效地识别对手的触发器，并确保对传统防御的逃避，同时保持内容完整性。

Feb, 2024

大型语言模型更具优势：探索生成式干净标签背门攻击对文本分类器的影响

我们研究了后门攻击，使用语言模型自动插入多样化的基于样式的触发器到文本中，并提出了一种毒素选择技术来改善攻击的效果，同时还描述了一种名为 REACT 的基线防御机制来缓解后门攻击。我们的评估结果表明 LLMBkd 攻击在各种样式上都能以高攻击成功率，且几乎不需要训练而且非常有效。

Oct, 2023

Few-shot 学习受到背门攻击的影响吗？

本文研究了 Few-shot Learning（FSL）领域中的后门攻击问题，发现 FSL 仍然存在脆弱性，并提出了一种名为 Few-shot Learning Backdoor Attack（FLBA）的新方法，该方法通过生成触发器并使用两种类型的不可察觉扰动使攻击更具隐蔽性，并在 FSL 任务中取得了高攻击成功率，同时保持了准确性和隐蔽性。

Dec, 2023