通过逐层特征分析来防御后门攻击
该论文研究发现深度神经网络易受后门攻击影响,通过自监督学习和半监督微调等方法提出了一种解决方案,通过将原来的训练过程分解成三个阶段,有效地减轻了后门攻击带来的威胁。
Feb, 2022
通过对被污染神经元的特征进行排名,我们提出的方法可以显著降低攻击成功的几率超过 50%,即使只有极小的干净数据集,例如 CIFAR-10 数据集的十个样本,并且不会明显损害模型性能。此外,我们提出的方法比基准方法运行速度快三倍。
Nov, 2023
本研究发现在使用第三方资源训练深度神经网络时容易出现后门威胁,尤其对目标检测等关键应用程序造成威胁。通过无目标特点的简单而有效的毒药后门攻击,我们成功地将后门嵌入目标模型,这可以使模型无法检测到任何与我们的触发模式带有标记的物体。我们在基准数据集上进行了广泛的实验,表明这种方法在数字和现实世界的应用都非常有效,并且对潜在防御手段具有抵御力。
Nov, 2022
提出了一种新颖的后门攻击方法,通过使用预训练的受害模型从干净图像中提取低级和高级语义特征,并基于通道注意力生成与高级特征相关联的触发模式,然后使用编码器模型生成受污染的图像,同时维持对后门防御的鲁棒性,实验结果表明,该攻击方法在三个知名图像分类深度神经网络上取得了高攻击成功率,同时具有很好的隐秘性。
May, 2024
我们提出了一个有效的防御框架,该框架在数据预处理过程中注入非对抗性后门,以抵御深度神经网络面对后门攻击的威胁。在多个基准测试和代表性攻击的广泛实验中,我们的方法实现了业界领先的防御效果,在干净数据上性能下降极低。鉴于我们的框架展示的惊人防御能力,我们呼吁更多关注如何利用后门进行后门防御。
Jul, 2023
本文提出一种更强的权重污染攻击方法,引入逐层权重污染策略以种植更深层次的后门;我们还引入一种组合式触发器,不能轻易检测。实验表明,以前的防御方法无法抵抗我们的权重污染方法,这表明我们的方法可以被广泛应用,并为未来的模型鲁棒性研究提供线索。
Aug, 2021
本文提出了一种新的方法应对数据受限的后门攻击,使用预训练的 CLIP 模型并引入了基于 “干净特征抑制” 和 “污染特征增强” 两大技术来有效地操纵模型的行为,实验表明该方法可显着提高攻击成功率。
Jun, 2023
该研究对针对深度神经网络的后门攻击进行了全面的调查,总结和分类现有的后门攻击和防御方法,并提供了分析基于攻击方法的中毒后门攻击的统一框架,并分析了后门攻击与相关领域(如敌对攻击和数据污染)的关系,同时总结了广泛采用的基准数据集。
Jul, 2020
该论文提出一种基于黑盒模型的反向工程优化算法,用于检测深度神经网络中嵌入的恶意后门攻击,并通过检测结果进行有效的可靠预测,实验表明其可以有效地应对多种后门攻击。
Mar, 2021