防范隐蔽后门攻击

May, 2022

Defending Against Stealthy Backdoor Attacks

Sangeet Sagar, Abhinav Bhatt, Abhijith Srinivas Bidaralli

TL;DR本文介绍了一些针对语言处理模型的后门攻击进行的防御策略，并且实现了在提高模型对抗后门攻击效果的同时对模型本身影响较小的优化操作。

Abstract

Defenses against security threats have been an interest of recent studies. Recent works have shown that it is not difficult to attack a natural language processing (NLP) model while defending against them is still a cat-mouse game. →

security threats natural language processing backdoor attacks neural network defense strategies

发现论文，激发创造

自然语言处理中后门攻击与防御的调查

本文综述了深度学习在自然语言处理中的应用，分析了训练数据和模型面临的公开风险，着重探讨了后门攻击的前沿进展及其防御对策，并总结了基准数据集及其存在的问题，旨在设计更可靠的系统以保护模型安全。

Nov, 2022

自然语言生成中的后门攻击防护

本文研究神经网络模型中存在的后门攻击对自然语言生成系统的影响，并提出了相应的防御策略。通过测试生成目标给定源的后向概率，能够有效地防御各种类型的攻击，并处理对话生成等多任务中的一对多问题。该研究有望引起人们对深度自然语言生成系统中后门风险的关注，并启发更多有关攻击和防御的未来研究。

Jun, 2021

文本数据的自然后门攻击

本研究提出了针对 NLP 模型的 “自然后门攻击”，对文本数据进行触发器生成，并研究了不同类型的触发器，最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。

Jun, 2020

BadNL: 含语义保持改进的自然语言处理模型后门攻击

该文章就神经网络 (DNNs) 的后门攻击进行了系统研究，提出了一个新的 NLP 后门攻击框架，BadNL，其中包括了三种构造触发器的方法，即 BadChar、BadWord 和 BadSentence，攻击成功率几乎完美，并且几乎不影响原始模型的效用。

Jun, 2020

对大型语言模型的后门攻击和防御调研：对安全措施的影响

该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Jun, 2024

无敌傍门防御

我们提出了一个有效的防御框架，该框架在数据预处理过程中注入非对抗性后门，以抵御深度神经网络面对后门攻击的威胁。在多个基准测试和代表性攻击的广泛实验中，我们的方法实现了业界领先的防御效果，在干净数据上性能下降极低。鉴于我们的框架展示的惊人防御能力，我们呼吁更多关注如何利用后门进行后门防御。

Jul, 2023

自然语言处理中后门攻击强度的评估方法重构

该研究介绍了一种新的指标 ASRD，用于评估后门攻击的真实攻击能力，并提出了 Trigger Breaker，可以有效地防御隐身后门攻击。

Jan, 2022

揭示远程植入后门的途径：一种基于特征的高效文本后门攻击防御方法

本文提出了一种基于特征的高效在线防御方法，通过距离异常评分来区分有毒和干净的文本样本，在已有的攻击方法上进行了广泛的实验，结果表明该模型具有更好的防御性能和更低的推理成本，并且还能够抵抗基于特征级正则化的攻击。

Oct, 2022

预训练模型的后门可以转移到所有模型

本文提出了一种新的方法，将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示，而不是目标标签，从而可以将后门引入广泛的下游任务中，而无需任何先前的知识，通过各种触发器类型的实验，论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型（如 BERT、XLNet、BART）是普适的，并且不可避免地引入了严重威胁。

Oct, 2021

BadPre：面向预训练 NLP 基础模型的任务无关后门攻击

本研究提出了首个不依赖下游任务信息的 NLP 预训练模型后门攻击技术 Name，并设计了一种有效的绕过最新防御方案的策略，实验结果表明，该方法可以在有效和隐蔽的权衡下，攻击各种 NLP 任务。

Oct, 2021