仅使用少量干净样本的统一神经背门去除方法：遗忘与重新学习

May, 2024

仅使用少量干净样本的统一神经背门去除方法：遗忘与重新学习

Unified Neural Backdoor Removal with Only Few Clean Samples through Unlearning and Relearning

Nay Myat Min, Long H. Pham, Jun Sun

TL;DRULRL 是一种全面有效的去除后门的新方法，它通过首先使用 unlearning 来识别可疑神经元，然后通过有针对性的神经权重调整来减轻后门攻击，ULRL 在消除后门同时保留模型的实用性方面显著优于现有方法。

Abstract

The application of deep neural network models in various security-critical applications has raised significant security concerns, particularly the risk of backdoor attacks. →

deep neural network models backdoor attacks neural backdoors ulrl backdoor removal

发现论文，激发创造

去学习后门威胁：通过本地令牌去学习增强多模态对比学习的后门防御

不同模态对比学习在构建高质量特征方面具有很大的潜力，但其开放性意味着可能遭受后门攻击。本文从模型遗忘的角度探讨了一种防御机制，即通过构建一小组有毒样本，迅速消除后门威胁。实验结果表明，该方法不仅能保证攻击的成功率最小化，还能保持模型的高准确性。

Mar, 2024

基于梯度的模型修剪消除后门攻击

在日益关注网络安全威胁的时代，针对后门攻击的防御对于确保机器学习模型的完整性和可靠性至关重要。然而，许多现有方法要求大量数据以进行有效的缓解，给实际部署带来了重大挑战。为解决这个问题，我们提出了一种将后门攻击缓解视为一项取消学习任务的新方法。我们通过有针对性的模型修剪策略来应对这一挑战，利用取消学习损失梯度来识别和消除模型中的后门元素。基于坚实的理论洞察，我们的方法简单有效，非常适合数据有限的场景。我们的方法包括制定合适的取消学习损失以及设计适用于卷积神经网络的模型修剪技术。综合评估结果表明，相对于最先进的方法，我们提出的方法在现实数据设置下表现出更高的有效性。

May, 2024

基于遗忘权重变化和后门激活的揭示与缓解后门漏洞

我们的工作主要研究了深度神经网络中的后门攻击安全威胁，并提出了一种基于神经元权重变化和活跃度感知微调的两阶段防御方法，通过实验证明了该方法相比最新的后门防御方法具有更高的性能。

May, 2024

重构式神经元修剪用于后门防御

本文提出了一种新的防御方法 ——Reconstructive Neuron Pruning（RNP），它通过一种非对称重构学习过程，针对神经网络中的 backdoor 节点进行暴露和修剪，并取得了先进的防御效果。

May, 2023

通过机器遗忘进行的后门攻击

近年来，由于深度学习研究和应用的快速发展，人工智能的安全问题变得越来越突出。在这项工作中，我们提出了一种基于机器反学习的黑盒后门攻击方法，通过精心设计的样本对训练集进行增强，然后利用取消学习请求来逐步激活隐藏的后门。我们还提出了两种方法来检测或减轻这种恶意消除学习请求，实验证明：我们的攻击可以成功植入后门到模型中，而分散处理增加了攻击的难度；我们的检测算法能够有效识别减轻样本，而分散处理降低了我们的检测算法的有效性。

Sep, 2023

深度神经网络中反向工程后训练的通用防御机制

本文介绍了一种新的检测器，利用被保护深度神经网络的内部特征映射来检测和逆向工程后门，并识别其目标类别；该检测器可以在训练结束后操作，对各种内部化机制都具有高效性，且计算开销较低，可实现可扩展性。

Feb, 2024

共享对抗样本的退学：通过退学共享的对抗样本来减轻后门问题

通过建立后门风险和对抗风险之间的联系，本文提出了一种用于净化后门模型的新的上界，该上界主要捕捉后门模型和净化模型之间的共享对抗示例上的风险，这进一步提出了一个用于缓解后门的新的双层优化问题，并提出了共享对抗消除方法 (SAU)，通过生成共享对抗示例，并通过对这些示例的遗忘来减轻后门效应，从而达到了强大的后门防御性能。

Jul, 2023

UOR：预训练语言模型的通用后门攻击

本论文提出了一种新的后门攻击方法 UOR，通过将手动选择转化为自动优化，定义了毒化监督对比学习，使用梯度搜索选择适当的触发词并针对不同 PLMs 和词汇表进行自适应，取得了比手动方法更好的攻击表现，并证明了该方法的普适性。

May, 2023

通用酸碱指示图样式：揭示 CNN 中的后门攻击

该论文介绍了一种基准技术，用于检测深度卷积神经网络中的后门攻击，并提出了通用测试点方案，通过对这些通用测试点进行前向传递来快速检测网络是否被感染，实验表明该技术有效性得到验证。

Jun, 2019

反后门学习：在注入恶意数据后训练干净模型

本文提出一种名为反后门学习 (Anti-Backdoor Learning, ABL) 的方法，实现了在数据中注入后门的情况下对深度神经网络进行防御。采用两个阶段的梯度上升机制对数据进行处理，这样训练出的模型可以与只使用纯净数据训练的模型一样优秀。

Oct, 2021