利用激活引导模型编辑缓解后门攻击

Jul, 2024

利用激活引导模型编辑缓解后门攻击

Mitigating Backdoor Attacks using Activation-Guided Model Editing

Felix Hsieh, Huy H. Nguyen, AprilPyone MaungMaung, Dmitrii Usynin, Isao Echizen

TL;DR通过机器反学习的新方法，我们提出了一种新颖的后门缓解方法，通过域相等的未见数据的模型激活来引导模型权重的编辑，以反制这种后门攻击。我们的方法不仅计算成本低廉，而且在只需要少量未见样本进行反学习的情况下，能够取得最先进的性能。此外，我们还指出，反学习后门可能会导致整个目标类别被反学习，从而引入附加修复步骤，在编辑模型后保持模型的实用性。实验证明，我们提出的方法在不同数据集和触发模式上能够有效地反学习后门。

Abstract

backdoor attacks compromise the integrity and reliability of machine learning models by embedding a hidden trigger during the training process, which can later be activated to cause unintended misbehavior. We pro

发现论文，激发创造

反后门学习：在注入恶意数据后训练干净模型

本文提出一种名为反后门学习 (Anti-Backdoor Learning, ABL) 的方法，实现了在数据中注入后门的情况下对深度神经网络进行防御。采用两个阶段的梯度上升机制对数据进行处理，这样训练出的模型可以与只使用纯净数据训练的模型一样优秀。

Oct, 2021

在机器学习模型中种植不可检测的后门

本研究探讨了恶意学习者如何在其他人无法察觉的情况下，向分类器中植入不可检测的后门，进而影响其分类结果，该现象极大地阻碍了认证适应性和干扰性的理论发展。

Apr, 2022

探究自我训练如何容忍数据背门毒化

通过使用适当的数据增强手段，自主训练能够在缓解后门攻击中扮演重要角色。

Jan, 2023

共享对抗样本的退学：通过退学共享的对抗样本来减轻后门问题

通过建立后门风险和对抗风险之间的联系，本文提出了一种用于净化后门模型的新的上界，该上界主要捕捉后门模型和净化模型之间的共享对抗示例上的风险，这进一步提出了一个用于缓解后门的新的双层优化问题，并提出了共享对抗消除方法(SAU)，通过生成共享对抗示例，并通过对这些示例的遗忘来减轻后门效应，从而达到了强大的后门防御性能。

Jul, 2023

通过校正神经激活分布进行后门缓解

这篇论文揭示和分析了后门攻击的一个重要特性：成功攻击会导致后门触发实例的内部层激活分布发生改变，与干净实例的分布不同。基于这一观察，作者提出了一种高效和有效的方法，通过使用逆向工程的触发器来纠正分布变化，从而实现后期训练的后门缓解。该方法不会改变DNN的任何可训练参数，但与需要大量DNN参数调整的现有方法相比，其缓解性能普遍更好。它还能有效检测带有触发器的测试实例，可以帮助及时发现恶意攻击者对后门进行利用。

Aug, 2023

通过机器遗忘进行的后门攻击

近年来，由于深度学习研究和应用的快速发展，人工智能的安全问题变得越来越突出。在这项工作中，我们提出了一种基于机器反学习的黑盒后门攻击方法，通过精心设计的样本对训练集进行增强，然后利用取消学习请求来逐步激活隐藏的后门。我们还提出了两种方法来检测或减轻这种恶意消除学习请求，实验证明：我们的攻击可以成功植入后门到模型中，而分散处理增加了攻击的难度；我们的检测算法能够有效识别减轻样本，而分散处理降低了我们的检测算法的有效性。

Sep, 2023

基于梯度的模型修剪消除后门攻击

在日益关注网络安全威胁的时代，针对后门攻击的防御对于确保机器学习模型的完整性和可靠性至关重要。然而，许多现有方法要求大量数据以进行有效的缓解，给实际部署带来了重大挑战。为解决这个问题，我们提出了一种将后门攻击缓解视为一项取消学习任务的新方法。我们通过有针对性的模型修剪策略来应对这一挑战，利用取消学习损失梯度来识别和消除模型中的后门元素。基于坚实的理论洞察，我们的方法简单有效，非常适合数据有限的场景。我们的方法包括制定合适的取消学习损失以及设计适用于卷积神经网络的模型修剪技术。综合评估结果表明，相对于最先进的方法，我们提出的方法在现实数据设置下表现出更高的有效性。

May, 2024

注入主动防御后门以减轻后门攻击

这篇论文提出了一种名为PDB（Proactive Defensive Backdoor）的新颖防御方法，通过在训练过程中主动注入防御型后门，有效地抑制恶意后门，保持对攻击者的秘密，并在原始任务上确保模型的实用性。实验结果表明，我们的方法在各种数据集和模型上实现了最先进的防御性能。

May, 2024

基于遗忘权重变化和后门激活的揭示与缓解后门漏洞

我们的工作主要研究了深度神经网络中的后门攻击安全威胁，并提出了一种基于神经元权重变化和活跃度感知微调的两阶段防御方法，通过实验证明了该方法相比最新的后门防御方法具有更高的性能。

May, 2024

多模态对比学习中的高效后门防御：一种缓解威胁的标记级别遗忘方法

本研究解决了多模态对比学习中后门攻击的安全风险，提出了一种基于机器遗忘的高效防御机制。通过创建小规模的中毒样本并采用新的标记级别部分遗忘训练方案，本文显著提高了模型在面对后门攻击时的防御效率，同时保持了较高的干净准确率。

Sep, 2024