本文研究基于深度神经网络的后门攻击,在图像的预处理阶段,采用特殊参数的空间变换作为触发模式,仅旋转到特定角度的图片就能激活被攻击深度神经网络的嵌入式后门;同时,本文验证了虽然已存在的后门防御策略具备一定的抗攻击性,但是仍然无法阻止本文介绍的新攻击模式。
Nov, 2022
本文提出了一种新颖的隐形后门攻击方法,该方法通过将触发器模式视为一种特殊噪声并以伯努利分布生成参数,从而在不影响正常输入的情况下利用训练集合并夹杂恶意信息,并考虑对多种最新防御措施的效果验证。
May, 2022
观察了后门攻击的特点,本文提出了一种新的模型训练方法(PT),该方法通过冻结模型的一部分来训练能够隔离可疑样本的模型,然后在此基础上,对一个干净模型进行微调以抵抗后门攻击。
May, 2024
本文提出了一种新的方法,将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示,而不是目标标签,从而可以将后门引入广泛的下游任务中,而无需任何先前的知识,通过各种触发器类型的实验,论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型(如 BERT、XLNet、BART)是普适的,并且不可避免地引入了严重威胁。
Oct, 2021
该论文研究了针对深度神经网络的后门攻击,并提出了通过改变触发器来防御后门攻击的方法。
Apr, 2020
通过对被污染神经元的特征进行排名,我们提出的方法可以显著降低攻击成功的几率超过 50%,即使只有极小的干净数据集,例如 CIFAR-10 数据集的十个样本,并且不会明显损害模型性能。此外,我们提出的方法比基准方法运行速度快三倍。
Nov, 2023
研究了深度神经网络中的后门攻击,发现了后门相关神经元和正常神经元之间的本质差异,并设计了一种新的训练方法,可以有效地防御注入后门,实验证明其效果显著。
Feb, 2022
通过分析训练数据的结构信息,我们对反向门攻击问题提出了一种不同的方法,指出这些攻击在一般情况下是不可能被检测到的。基于此观察,我们重新审视了现有的反向门攻击防御措施并对其隐含的假设进行了表征。最后,基于假设条件,我们提出了一种新的原始方法来检测反向门攻击,并开发了一个具有理论保证且实用的检测算法。
Jul, 2023
本文研究深度神经网络(DNN)中的后门攻击,提出了一种新的攻击方法,生成样本特定且不可见的添加噪声作为后门触发器,证明了该方法可以有效地攻击有或无防御机制的模型。
Dec, 2020
本文中提出了基于随机失活技术的无需触发器的深度神经网络后门攻击方法,该方法在保持攻击成功率的前提下,对模型的实用性损失十分微小。
Oct, 2020