基于梯度的模型修剪消除后门攻击

May, 2024

基于梯度的模型修剪消除后门攻击

Unlearning Backdoor Attacks through Gradient-Based Model Pruning

Kealan Dunnett, Reza Arablouei, Dimity Miller, Volkan Dedeoglu, Raja Jurdak

TL;DR在日益关注网络安全威胁的时代，针对后门攻击的防御对于确保机器学习模型的完整性和可靠性至关重要。然而，许多现有方法要求大量数据以进行有效的缓解，给实际部署带来了重大挑战。为解决这个问题，我们提出了一种将后门攻击缓解视为一项取消学习任务的新方法。我们通过有针对性的模型修剪策略来应对这一挑战，利用取消学习损失梯度来识别和消除模型中的后门元素。基于坚实的理论洞察，我们的方法简单有效，非常适合数据有限的场景。我们的方法包括制定合适的取消学习损失以及设计适用于卷积神经网络的模型修剪技术。综合评估结果表明，相对于最先进的方法，我们提出的方法在现实数据设置下表现出更高的有效性。

Abstract

In the era of increasing concerns over cybersecurity threats, defending against backdoor attacks is paramount in ensuring the integrity and reliability of machine learning models. However, many existing approache

backdoor attacks machine learning models mitigation model pruning limited data availability

发现论文，激发创造

通过机器遗忘进行的后门攻击

近年来，由于深度学习研究和应用的快速发展，人工智能的安全问题变得越来越突出。在这项工作中，我们提出了一种基于机器反学习的黑盒后门攻击方法，通过精心设计的样本对训练集进行增强，然后利用取消学习请求来逐步激活隐藏的后门。我们还提出了两种方法来检测或减轻这种恶意消除学习请求，实验证明：我们的攻击可以成功植入后门到模型中，而分散处理增加了攻击的难度；我们的检测算法能够有效识别减轻样本，而分散处理降低了我们的检测算法的有效性。

Sep, 2023

基于遗忘权重变化和后门激活的揭示与缓解后门漏洞

我们的工作主要研究了深度神经网络中的后门攻击安全威胁，并提出了一种基于神经元权重变化和活跃度感知微调的两阶段防御方法，通过实验证明了该方法相比最新的后门防御方法具有更高的性能。

May, 2024

去学习后门威胁：通过本地令牌去学习增强多模态对比学习的后门防御

不同模态对比学习在构建高质量特征方面具有很大的潜力，但其开放性意味着可能遭受后门攻击。本文从模型遗忘的角度探讨了一种防御机制，即通过构建一小组有毒样本，迅速消除后门威胁。实验结果表明，该方法不仅能保证攻击的成功率最小化，还能保持模型的高准确性。

Mar, 2024

联邦学习中的反向攻击缓解

本文提出了一种针对联邦学习中后门攻击的新方法：设计一种联邦修剪方法以消除网络中的冗余神经元并调整模型的极端权重值，在 Fashion-MNIST 和 CIFAR-10 等广泛使用的数据集上进行实验证明，该方法可以将平均攻击成功率从 99.7％降低到 1.9％，并只损失 5.5％的测试准确率。

Oct, 2020

精细修剪：防御深度神经网络背门攻击

本文提出了针对深度神经网络中的后门攻击的有效防御措施，证明了单独使用修剪或微调是不足以防御复杂攻击的，但结合使用微调 - 修剪可以成功削弱或消除后门攻击，仅略微降低网络对于普通 (非触发输入) 的准确率。该研究为深度神经网络中的后门攻击提供了防御措施的第一步。

May, 2018

仅使用少量干净样本的统一神经背门去除方法：遗忘与重新学习

ULRL 是一种全面有效的去除后门的新方法，它通过首先使用 unlearning 来识别可疑神经元，然后通过有针对性的神经权重调整来减轻后门攻击，ULRL 在消除后门同时保留模型的实用性方面显著优于现有方法。

May, 2024

重构式神经元修剪用于后门防御

本文提出了一种新的防御方法 ——Reconstructive Neuron Pruning（RNP），它通过一种非对称重构学习过程，针对神经网络中的 backdoor 节点进行暴露和修剪，并取得了先进的防御效果。

May, 2023

反后门学习：在注入恶意数据后训练干净模型

本文提出一种名为反后门学习 (Anti-Backdoor Learning, ABL) 的方法，实现了在数据中注入后门的情况下对深度神经网络进行防御。采用两个阶段的梯度上升机制对数据进行处理，这样训练出的模型可以与只使用纯净数据训练的模型一样优秀。

Oct, 2021

思考修剪在后门缓解中的作用：优化的视角

为了解决剔除被感染深度神经网络中的后门相关神经元的问题，在现有方法的基础上，我们提出了优化神经元剪枝（ONP）方法，结合图神经网络（GNN）和强化学习（RL），通过学习图嵌入和找到适当的剪枝策略来修复后门模型。实验证明，ONP 可以在几乎没有性能降级的情况下有效剪枝由一组后门攻击植入的后门神经元，从而实现了后门缓解领域的最新最佳性能。

May, 2024

利用后门维护我们的隐私

通过插入后门，我们提出了一种简单而有效的防御方法，以消除模型中的私人信息，特别是在文本编码器中，从而增强不经过过滤的网络爬取数据上的个人隐私。

Oct, 2023