多模态对比学习中的高效后门防御：一种缓解威胁的标记级别遗忘方法

Sep, 2024

多模态对比学习中的高效后门防御：一种缓解威胁的标记级别遗忘方法

Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats

Kuanrong Liu, Siyuan Liang, Jiawei Liang, Pengwen Dai, Xiaochun Cao

TL;DR本研究解决了多模态对比学习中后门攻击的安全风险，提出了一种基于机器遗忘的高效防御机制。通过创建小规模的中毒样本并采用新的标记级别部分遗忘训练方案，本文显著提高了模型在面对后门攻击时的防御效率，同时保持了较高的干净准确率。

Abstract

Multimodal Contrastive Learning uses various data modalities to create high-quality features, but its reliance on extensive data sources on the Internet makes it vulnerable to backdoor attacks. These attacks insert malicious behaviors during training, which are activated by specific tr

发现论文，激发创造

对比学习的中毒和后门攻击

研究指出多模态对比学习方法训练在无噪声且未分类的数据集上可能导致后门和毒化攻击成为重要的威胁。通过少量的毒化数据，可以影响模型分类测试图片的准确性，这显然会影响训练数据集的质量。

Jun, 2021

使用噪声增强对比学习的文本后门防御

该研究提出了基于噪声增强对比学习（NCL）框架，以保护使用不可信数据训练模型的文本后门攻击。实验表明该方法的有效性，比先前的研究表现更好。

Mar, 2023

通过机器遗忘进行的后门攻击

近年来，由于深度学习研究和应用的快速发展，人工智能的安全问题变得越来越突出。在这项工作中，我们提出了一种基于机器反学习的黑盒后门攻击方法，通过精心设计的样本对训练集进行增强，然后利用取消学习请求来逐步激活隐藏的后门。我们还提出了两种方法来检测或减轻这种恶意消除学习请求，实验证明：我们的攻击可以成功植入后门到模型中，而分散处理增加了攻击的难度；我们的检测算法能够有效识别减轻样本，而分散处理降低了我们的检测算法的有效性。

Sep, 2023

BadCLIP: 多模态对比学习的双嵌入引导后门攻击

本文介绍了一种名为 oolns 的抵抗后门检测和模型优化防御的攻击，通过基于贝叶斯规则的双嵌入引导框架，在自然触发模式中实现了视觉触发模式的文本目标语义近似，并通过优化视觉触发模式与目标视觉特征的一致性对目标样本进行了污染，证明其对现有的后门防御具有显著优势，引发了对多模态对比学习的潜在威胁的关注，并鼓励开发更加健壮的防御机制。

Nov, 2023

对抗后门攻击中对比学习的防御难度

本研究探讨了对比学习与监督学习相比，在基于后门的攻击方面存在的差异，并发现对比后门攻击需要特定的防御方法，强调了未来研究的方向。

Dec, 2023

去学习后门威胁：通过本地令牌去学习增强多模态对比学习的后门防御

不同模态对比学习在构建高质量特征方面具有很大的潜力，但其开放性意味着可能遭受后门攻击。本文从模型遗忘的角度探讨了一种防御机制，即通过构建一小组有毒样本，迅速消除后门威胁。实验结果表明，该方法不仅能保证攻击的成功率最小化，还能保持模型的高准确性。

Mar, 2024

基于梯度的模型修剪消除后门攻击

在日益关注网络安全威胁的时代，针对后门攻击的防御对于确保机器学习模型的完整性和可靠性至关重要。然而，许多现有方法要求大量数据以进行有效的缓解，给实际部署带来了重大挑战。为解决这个问题，我们提出了一种将后门攻击缓解视为一项取消学习任务的新方法。我们通过有针对性的模型修剪策略来应对这一挑战，利用取消学习损失梯度来识别和消除模型中的后门元素。基于坚实的理论洞察，我们的方法简单有效，非常适合数据有限的场景。我们的方法包括制定合适的取消学习损失以及设计适用于卷积神经网络的模型修剪技术。综合评估结果表明，相对于最先进的方法，我们提出的方法在现实数据设置下表现出更高的有效性。

May, 2024

基于遗忘权重变化和后门激活的揭示与缓解后门漏洞

我们的工作主要研究了深度神经网络中的后门攻击安全威胁，并提出了一种基于神经元权重变化和活跃度感知微调的两阶段防御方法，通过实验证明了该方法相比最新的后门防御方法具有更高的性能。

May, 2024

利用激活引导模型编辑缓解后门攻击

通过机器反学习的新方法，我们提出了一种新颖的后门缓解方法，通过域相等的未见数据的模型激活来引导模型权重的编辑，以反制这种后门攻击。我们的方法不仅计算成本低廉，而且在只需要少量未见样本进行反学习的情况下，能够取得最先进的性能。此外，我们还指出，反学习后门可能会导致整个目标类别被反学习，从而引入附加修复步骤，在编辑模型后保持模型的实用性。实验证明，我们提出的方法在不同数据集和触发模式上能够有效地反学习后门。

Jul, 2024

CLIP中的对抗性后门防御

本研究针对多模态对比预训练模型（如CLIP）在后门攻击中易受攻击的问题，提出了一种新颖的数据增强策略——对抗性后门防御（ABD）。该方法通过与精心设计的对抗样本对齐特征，有效地打断了后门关联，实现了对传统单模态和多模态后门攻击的强有力防御，显著降低了攻击成功率。

Sep, 2024