自监督学习中基于补丁的后门攻击的防御

CVPRApr, 2023

自监督学习中基于补丁的后门攻击的防御

Defending Against Patch-based Backdoor Attacks on Self-Supervised Learning

Ajinkya Tejankar, Maziar Sanjabi, Qifan Wang, Sinong Wang, Hamed Firooz...

TL;DR本文研究针对自监督学习中的数据投毒后门攻击，提出了一种三步防御管道，其中包括使用训练模型搜索被毒害的样本并将其从训练集中移除的防御算法 PatchSearch。研究结果表明，PatchSearch 是一种有效的防御，其表现优于基线和最先进的防御方法（包括使用额外的干净、可靠数据的方法），可以将模型在包含触发器的图像上的准确性从 38.2% 提高到 63.7%，接近于干净模型的准确性 64.6%。

Abstract

Recently, self-supervised learning (SSL) was shown to be vulnerable to patch-based data poisoning backdoor attacks. It was shown that an a

self-supervised learning data poisoning defense pipeline patchsearch backdoor attacks

发现论文，激发创造

通过集群激活屏蔽消除自监督学习的后门

提出了一种通过集群激活屏蔽和新颖的 PoisonCAM 方法来消除自我监督学习背门攻击的痕迹，并在 ImageNet-100 数据集上达到 96% 的背门触发器检测准确率。

Dec, 2023

如何只利用未标记数据制作后门？

通过对未标记的数据进行自我监督学习（SSL），本研究调查了基于后门攻击的潜在风险，在没有标签信息的情况下，通过聚类和对比度选择两种毒化策略，证明了在许多 SSL 方法中，无标签后门攻击可以有效地超越随机毒化。

Apr, 2024

自监督学习的后门攻击

该研究探讨了对于基于无监督大规模未标注数据的自监督学习方法的后门攻击，提出了通过知识蒸馏的防御方法，并在实验中取得了成功。

May, 2021

自我监督学习中不可察觉的后门攻击

自我监督学习模型容易受到后门攻击，而现有的有效后门攻击方法常常涉及可察觉的触发机制，如有颜色的补丁，容易被人类检查出来。本文提出了一种对自我监督模型有效而又难以察觉的后门攻击方法，通过优化特定触发机制的设计，使其与自我监督学习中的增广转换有区分度，并对人类视觉难以察觉。在五个数据集和七个自我监督学习算法上的实验证明了我们的攻击方式极其有效且隐秘，并且对现有后门防御具有很强的抵抗力。我们的代码可以在此链接中找到。

May, 2024

探究自我训练如何容忍数据背门毒化

通过使用适当的数据增强手段，自主训练能够在缓解后门攻击中扮演重要角色。

Jan, 2023

对 SSL 后门攻击的一种极简防御方法

自我监督学习（SSL）已经成为应对无人监督数据环境的一种强大范例。然而，最近的研究表明 SSL 容易受到后门攻击的威胁，控制模型以适应攻击者目的。本文引入一种基于频率的新型后门攻击：CTRL，并提出了两种对抗 SSL 中基于频率攻击的防御策略：一种适用于模型训练前，另一种适用于模型推断期间。使用自监督学习的对象分类作为下游任务，我们展示了成功的防御策略，无需重新训练模型。

Mar, 2024

通过解耦训练过程进行后门防御

该论文研究发现深度神经网络易受后门攻击影响，通过自监督学习和半监督微调等方法提出了一种解决方案，通过将原来的训练过程分解成三个阶段，有效地减轻了后门攻击带来的威胁。

Feb, 2022

毒药为疗法：在深度神经网络中检测和中和可变大小的后门攻击

提出了一种有效的对抗性样本（backdoor）防御方法，它由多个子模块组成，能够在检测到 backdoor 的同时进行筛选清洗，并通过提取毒信号的方式中和攻击。该防御方法在 CIFAR10 数据集上针对 9 种不同的目标基类配对均表现出较好的效果。

Nov, 2019

SEEP: 培训动力为减轻后门污染攻击而进行潜在表示搜索

通过利用训练动态识别有毒样本并进行标签传播以提高召回率，我们提出了一种新颖的防御机制，有效降低了多种后门攻击的成功率，并保持了对干净测试集高准确度的分类。

May, 2024

图像分类器后门数据污染攻击的系统评估

本文系统评估了包括触发器模式、回归技术、模型体系结构及数据集在内的不同实验条件，并研究后门数据污染攻击的成功率及其可被检测的难度。

Apr, 2020