通过先决变换减轻后门攻击

Jun, 2023

Mitigating Backdoor Attack Via Prerequisite Transformation

Han Gao

TL;DR本文提出了一种名为先决条件转换（Prerequisite Transformation，PT）的新方法，该方法可在不破坏模型性能的情况下对抗后门攻击，同时保护触发器特征和正常特征。

Abstract

In recent years, with the successful application of dnn in fields such as NLP and CV, its security has also received widespread attention. (Author) proposed the method of backdoor attack in Badnet. Switch implant

dnn backdoor attack prerequisite transformation trigger features verification set

发现论文，激发创造

基于转换触发器的后门攻击

本文研究基于深度神经网络的后门攻击，在图像的预处理阶段，采用特殊参数的空间变换作为触发模式，仅旋转到特定角度的图片就能激活被攻击深度神经网络的嵌入式后门；同时，本文验证了虽然已存在的后门防御策略具备一定的抗攻击性，但是仍然无法阻止本文介绍的新攻击模式。

Nov, 2022

输入空间到特征表示的无感后门攻击

本文提出了一种新颖的隐形后门攻击方法，该方法通过将触发器模式视为一种特殊噪声并以伯努利分布生成参数，从而在不影响正常输入的情况下利用训练集合并夹杂恶意信息，并考虑对多种最新防御措施的效果验证。

May, 2022

部分训练和隔离：缓解后门攻击

观察了后门攻击的特点，本文提出了一种新的模型训练方法（PT），该方法通过冻结模型的一部分来训练能够隔离可疑样本的模型，然后在此基础上，对一个干净模型进行微调以抵抗后门攻击。

May, 2024

预训练模型的后门可以转移到所有模型

本文提出了一种新的方法，将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示，而不是目标标签，从而可以将后门引入广泛的下游任务中，而无需任何先前的知识，通过各种触发器类型的实验，论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型（如 BERT、XLNet、BART）是普适的，并且不可避免地引入了严重威胁。

Oct, 2021

重新思考后门攻击的触发条件

该论文研究了针对深度神经网络的后门攻击，并提出了通过改变触发器来防御后门攻击的方法。

Apr, 2020

在数据有限的配置中减轻深度神经网络中的后门问题

通过对被污染神经元的特征进行排名，我们提出的方法可以显著降低攻击成功的几率超过 50%，即使只有极小的干净数据集，例如 CIFAR-10 数据集的十个样本，并且不会明显损害模型性能。此外，我们提出的方法比基准方法运行速度快三倍。

Nov, 2023

更加自信地训练：在训练期间减轻注入和自然后门的影响

研究了深度神经网络中的后门攻击，发现了后门相关神经元和正常神经元之间的本质差异，并设计了一种新的训练方法，可以有效地防御注入后门，实验证明其效果显著。

Feb, 2022

重新思考后门攻击

通过分析训练数据的结构信息，我们对反向门攻击问题提出了一种不同的方法，指出这些攻击在一般情况下是不可能被检测到的。基于此观察，我们重新审视了现有的反向门攻击防御措施并对其隐含的假设进行了表征。最后，基于假设条件，我们提出了一种新的原始方法来检测反向门攻击，并开发了一个具有理论保证且实用的检测算法。

Jul, 2023

使用样本特定触发器的隐形后门攻击

本文研究深度神经网络（DNN）中的后门攻击，提出了一种新的攻击方法，生成样本特定且不可见的添加噪声作为后门触发器，证明了该方法可以有效地攻击有或无防御机制的模型。

Dec, 2020

无触发后门攻击对抗深度神经网络

本文中提出了基于随机失活技术的无需触发器的深度神经网络后门攻击方法，该方法在保持攻击成功率的前提下，对模型的实用性损失十分微小。

Oct, 2020