通过对抗性权重掩码进行单次神经后门消除
本研究提出一种新颖的深度学习后门攻击方式,攻击者能够在训练过程中提供正常标注的毒瘤数据,并在毒瘤数据中隐藏触发器,待测试时再激活攻击,从而欺骗模型,而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。
Sep, 2019
本文通过在模型权重空间中引入对抗扰动来注入 DNNs 的后门,揭示了使用公开可用的训练模型的安全风险。作者设计了一个复合损失,以通过投影梯度下降在原始模型的预测和所需触发器之间引入对抗性的权重扰动,并表明这些扰动在多项任务中都是有效的。
Aug, 2020
本文提出一种名为反后门学习 (Anti-Backdoor Learning, ABL) 的方法,实现了在数据中注入后门的情况下对深度神经网络进行防御。采用两个阶段的梯度上升机制对数据进行处理,这样训练出的模型可以与只使用纯净数据训练的模型一样优秀。
Oct, 2021
通过建立后门风险和对抗风险之间的联系,本文提出了一种用于净化后门模型的新的上界,该上界主要捕捉后门模型和净化模型之间的共享对抗示例上的风险,这进一步提出了一个用于缓解后门的新的双层优化问题,并提出了共享对抗消除方法(SAU),通过生成共享对抗示例,并通过对这些示例的遗忘来减轻后门效应,从而达到了强大的后门防御性能。
Jul, 2023
通过对被污染神经元的特征进行排名,我们提出的方法可以显著降低攻击成功的几率超过50%,即使只有极小的干净数据集,例如CIFAR-10数据集的十个样本,并且不会明显损害模型性能。此外,我们提出的方法比基准方法运行速度快三倍。
Nov, 2023
ULRL是一种全面有效的去除后门的新方法,它通过首先使用unlearning来识别可疑神经元,然后通过有针对性的神经权重调整来减轻后门攻击,ULRL在消除后门同时保留模型的实用性方面显著优于现有方法。
May, 2024
我们的工作主要研究了深度神经网络中的后门攻击安全威胁,并提出了一种基于神经元权重变化和活跃度感知微调的两阶段防御方法,通过实验证明了该方法相比最新的后门防御方法具有更高的性能。
May, 2024
我们提出了神经掩蔽微调(NFT)方法,通过优化地重新组织神经元的活动,消除后门的影响;通过与混合数据增强技术MixUp的结合,NFT简化了后门合成过程,并消除了对拟合反向搜索模块的需求。我们通过大量实验证实了NFT的有效性,涵盖了图像分类、目标检测、视频动作识别、3D点云和自然语言处理等任务,并在ImageNet、UCF101、Pascal VOC、ModelNet、OpenSubtitles2012等11个基准数据集上对我们的方法进行了评估以应对LIRA、WaNet等14种不同攻击。
Jul, 2024