通过隐式超梯度对后门进行对抗性去学习

Oct, 2021

通过隐式超梯度对后门进行对抗性去学习

Adversarial Unlearning of Backdoors via Implicit Hypergradient

Yi Zeng, Si Chen, Won Park, Z. Morley Mao, Jin Ming...

TL;DR本文提出了使用小型的干净数据集来消除给定毒瘤模型中的后门的极小极大化公式，并提出了内隐后门对抗遗忘（I-BAU）算法来解决该问题。I-BAU算法的性能相当且通常比最佳基线优越，尤其是对于触发器的变化，攻击设置，毒瘤比率和干净数据大小的情况下更加鲁棒。

Abstract

We propose a minimax formulation for removing backdoors from a given poisoned model based on a small set of clean data. This formulation encompasses much of prior work on backdoor removal. We propose the Implicit

发现论文，激发创造

深度学习中绕过后门检测算法

本文提出了一种对抗性的植入算法，可以绕过现有的包括最先进技术在内的检测算法，呼吁设计对抗感知的防御机制来检测后门攻击。

May, 2019

后门学习：一项调查

该研究对针对深度神经网络的后门攻击进行了全面的调查，总结和分类现有的后门攻击和防御方法，并提供了分析基于攻击方法的中毒后门攻击的统一框架，并分析了后门攻击与相关领域（如敌对攻击和数据污染）的关系，同时总结了广泛采用的基准数据集。

Jul, 2020

反后门学习：在注入恶意数据后训练干净模型

本文提出一种名为反后门学习 (Anti-Backdoor Learning, ABL) 的方法，实现了在数据中注入后门的情况下对深度神经网络进行防御。采用两个阶段的梯度上升机制对数据进行处理，这样训练出的模型可以与只使用纯净数据训练的模型一样优秀。

Oct, 2021

无声杀手: 优化后门触发器从而实现隐蔽而强大的数据投毒攻击

利用数据污染，添加即便微小干扰也能改变模型原本判断的样本分类，且添加的干扰本身难以被发现，同时在效率上有所提升的神经网络后门攻击方法。

Jan, 2023

DHBE：通过受限对抗蒸馏进行数据无关的深度神经网络全局后门消除

本文提出基于DHBE框架的反向传播攻击清除方法，实现了既不牺牲模型准确率也不需要干净数据的干净模型生成。

Jun, 2023

可学习的毒化样本选择策略增强后门攻击

引入了一个训练掩码，学习可选择的毒性样本，从而有效地选择对注入后门有高贡献的样本，进而加强后门攻击网络的攻击效果。

Jul, 2023

重新思考后门攻击

通过分析训练数据的结构信息，我们对反向门攻击问题提出了一种不同的方法，指出这些攻击在一般情况下是不可能被检测到的。基于此观察，我们重新审视了现有的反向门攻击防御措施并对其隐含的假设进行了表征。最后，基于假设条件，我们提出了一种新的原始方法来检测反向门攻击，并开发了一个具有理论保证且实用的检测算法。

Jul, 2023

共享对抗样本的退学：通过退学共享的对抗样本来减轻后门问题

通过建立后门风险和对抗风险之间的联系，本文提出了一种用于净化后门模型的新的上界，该上界主要捕捉后门模型和净化模型之间的共享对抗示例上的风险，这进一步提出了一个用于缓解后门的新的双层优化问题，并提出了共享对抗消除方法(SAU)，通过生成共享对抗示例，并通过对这些示例的遗忘来减轻后门效应，从而达到了强大的后门防御性能。

Jul, 2023

通过机器遗忘进行的后门攻击

近年来，由于深度学习研究和应用的快速发展，人工智能的安全问题变得越来越突出。在这项工作中，我们提出了一种基于机器反学习的黑盒后门攻击方法，通过精心设计的样本对训练集进行增强，然后利用取消学习请求来逐步激活隐藏的后门。我们还提出了两种方法来检测或减轻这种恶意消除学习请求，实验证明：我们的攻击可以成功植入后门到模型中，而分散处理增加了攻击的难度；我们的检测算法能够有效识别减轻样本，而分散处理降低了我们的检测算法的有效性。

Sep, 2023

基于遗忘权重变化和后门激活的揭示与缓解后门漏洞

我们的工作主要研究了深度神经网络中的后门攻击安全威胁，并提出了一种基于神经元权重变化和活跃度感知微调的两阶段防御方法，通过实验证明了该方法相比最新的后门防御方法具有更高的性能。

May, 2024