本文提出了一种对抗性的植入算法,可以绕过现有的包括最先进技术在内的检测算法,呼吁设计对抗感知的防御机制来检测后门攻击。
May, 2019
该研究对针对深度神经网络的后门攻击进行了全面的调查,总结和分类现有的后门攻击和防御方法,并提供了分析基于攻击方法的中毒后门攻击的统一框架,并分析了后门攻击与相关领域(如敌对攻击和数据污染)的关系,同时总结了广泛采用的基准数据集。
Jul, 2020
本文提出一种名为反后门学习 (Anti-Backdoor Learning, ABL) 的方法,实现了在数据中注入后门的情况下对深度神经网络进行防御。采用两个阶段的梯度上升机制对数据进行处理,这样训练出的模型可以与只使用纯净数据训练的模型一样优秀。
Oct, 2021
利用数据污染,添加即便微小干扰也能改变模型原本判断的样本分类,且添加的干扰本身难以被发现,同时在效率上有所提升的神经网络后门攻击方法。
Jan, 2023
本文提出基于DHBE框架的反向传播攻击清除方法,实现了既不牺牲模型准确率也不需要干净数据的干净模型生成。
Jun, 2023
引入了一个训练掩码,学习可选择的毒性样本,从而有效地选择对注入后门有高贡献的样本,进而加强后门攻击网络的攻击效果。
Jul, 2023
通过分析训练数据的结构信息,我们对反向门攻击问题提出了一种不同的方法,指出这些攻击在一般情况下是不可能被检测到的。基于此观察,我们重新审视了现有的反向门攻击防御措施并对其隐含的假设进行了表征。最后,基于假设条件,我们提出了一种新的原始方法来检测反向门攻击,并开发了一个具有理论保证且实用的检测算法。
通过建立后门风险和对抗风险之间的联系,本文提出了一种用于净化后门模型的新的上界,该上界主要捕捉后门模型和净化模型之间的共享对抗示例上的风险,这进一步提出了一个用于缓解后门的新的双层优化问题,并提出了共享对抗消除方法(SAU),通过生成共享对抗示例,并通过对这些示例的遗忘来减轻后门效应,从而达到了强大的后门防御性能。
近年来,由于深度学习研究和应用的快速发展,人工智能的安全问题变得越来越突出。在这项工作中,我们提出了一种基于机器反学习的黑盒后门攻击方法,通过精心设计的样本对训练集进行增强,然后利用取消学习请求来逐步激活隐藏的后门。我们还提出了两种方法来检测或减轻这种恶意消除学习请求,实验证明:我们的攻击可以成功植入后门到模型中,而分散处理增加了攻击的难度;我们的检测算法能够有效识别减轻样本,而分散处理降低了我们的检测算法的有效性。
Sep, 2023
我们的工作主要研究了深度神经网络中的后门攻击安全威胁,并提出了一种基于神经元权重变化和活跃度感知微调的两阶段防御方法,通过实验证明了该方法相比最新的后门防御方法具有更高的性能。
May, 2024