采用动态边界缩放的约束优化方法有效防御自然语言处理后门攻击

Feb, 2022

采用动态边界缩放的约束优化方法有效防御自然语言处理后门攻击

Constrained Optimization with Dynamic Bound-scaling for Effective NLPBackdoor Defense

Guangyu Shen, Yingqi Liu, Guanhong Tao, Qiuling Xu, Zhuo Zhang...

TL;DR本研究提出了一种新的用于语言处理的反漏洞优化方法，通过使用动态降温系数来改变损失函数，逐渐聚焦于真实触发器上，并使用降温回滚机制来避免局部最优，并应用于 1600 个模型，发现该技术有效地在 3 个主流自然语言处理任务中检测和移除了 4 种基线攻击。

Abstract

We develop a novel optimization method for nlpbackdoor inversion. We leverage a dynamically reducing temperature coefficient in the softmax function to provide changing loss landscapes to the optimizer such that

nlpbackdoor inversion softmax function temperature rollback mechanism local optimals backdoor attacks

发现论文，激发创造

神经网络中的可扩展后门检测

该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击，该方法在实验中表现卓越，能完美地区分被套件攻击的模型和纯模型。

Jun, 2020

预训练模型的后门可以转移到所有模型

本文提出了一种新的方法，将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示，而不是目标标签，从而可以将后门引入广泛的下游任务中，而无需任何先前的知识，通过各种触发器类型的实验，论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型（如 BERT、XLNet、BART）是普适的，并且不可避免地引入了严重威胁。

Oct, 2021

揭示远程植入后门的途径：一种基于特征的高效文本后门攻击防御方法

本文提出了一种基于特征的高效在线防御方法，通过距离异常评分来区分有毒和干净的文本样本，在已有的攻击方法上进行了广泛的实验，结果表明该模型具有更好的防御性能和更低的推理成本，并且还能够抵抗基于特征级正则化的攻击。

Oct, 2022

通过 K-Arm 优化进行深度神经网络的后门扫描

本研究提出了一种基于多臂赌博策略的 K-Arm 优化方法来检测深度学习系统中的后门攻击，并成功在超过 4000 个模型上取得了领先的性能。

Feb, 2021

基于 Bregman 散度的鲁棒双温度逻辑损失

本文介绍一种在神经网络中引入温度的方法，并用高温通用性替换 softmax 输出层。通过调节两种温度来创建单层情况下的非凸损失函数，替换神经网络的最后一层并用双温度通用的逻辑损失函数进行训练，可使训练在一定程度上更加鲁棒。基于 Bregman 散度的方法胜过使用 Tsallis 散度的相关双温度方法。

Jun, 2019

SEEP: 培训动力为减轻后门污染攻击而进行潜在表示搜索

通过利用训练动态识别有毒样本并进行标签传播以提高召回率，我们提出了一种新颖的防御机制，有效降低了多种后门攻击的成功率，并保持了对干净测试集高准确度的分类。

May, 2024

可学习的文本后门攻击：基于词替换的组合锁攻击

本文研究表明神经自然语言处理模型容易受到后门攻击的威胁，而现有文本后门攻击方法容易被检测和阻拦，因此我们提出一种使用可学习的词汇替换的不可见后门攻击方法，结果表明该方法在攻击成功率接近 100% 的情况下高度隐蔽，对于 NLP 模型的安全构成威胁，需要进一步研究解决。

Jun, 2021

LSP 框架：基于标签平滑攻击的触发器逆向工程的补偿模型

深度神经网络容易受到后门攻击，本文提出了一种基于触发器逆向工程的防御方法，通过操纵后门样本的分类置信度来抵御触发器逆向工程，引入标签平滑引入（LSP）框架来实现分类置信度的特定操纵，实验证明该方法可以击败当前的触发器逆向工程方法，并与各种后门攻击具有良好的兼容性。

Apr, 2024

人类中心语言模型中的隐藏后门

本文提出通过嵌入本质隐形且难以检测的触发器进行的 NLP 背门攻击，该攻击能超过多项 NLP 任务，例如有害评论检测，机器翻译和问答系统，能在维持正常使用的正常用户的同时，在不经意间实施高成功率的攻击。

May, 2021

针对 NLP 模型后门攻击的鲁棒性感知扰动防御 (RAP)

本文提出了一种基于鲁棒性感知扰动的在线防御机制，可以有效对抗自然语言处理模型的后门攻击，并在情感分析和毒性检测任务中取得更好的防御效果和更低的计算成本。

Oct, 2021