如何只利用未标记数据制作后门？

ICLRApr, 2024

如何只利用未标记数据制作后门？

How to Craft Backdoors with Unlabeled Data Alone?

Yifei Wang, Wenhan Ma, Yisen Wang

TL;DR通过对未标记的数据进行自我监督学习（SSL），本研究调查了基于后门攻击的潜在风险，在没有标签信息的情况下，通过聚类和对比度选择两种毒化策略，证明了在许多 SSL 方法中，无标签后门攻击可以有效地超越随机毒化。

Abstract

Relying only on unlabeled data, self-supervised learning (SSL) can learn rich features in an economical and scalable way. As the drive-horse for building foundation models, SSL has received a lot of attention recently with wide applications, which also raises security concerns where

self-supervised learning backdoor attack no-label backdoors poison selection ssl methods

发现论文，激发创造

探究自我训练如何容忍数据背门毒化

通过使用适当的数据增强手段，自主训练能够在缓解后门攻击中扮演重要角色。

Jan, 2023

自监督学习的后门攻击

该研究探讨了对于基于无监督大规模未标注数据的自监督学习方法的后门攻击，提出了通过知识蒸馏的防御方法，并在实验中取得了成功。

May, 2021

自监督学习中基于补丁的后门攻击的防御

本文研究针对自监督学习中的数据投毒后门攻击，提出了一种三步防御管道，其中包括使用训练模型搜索被毒害的样本并将其从训练集中移除的防御算法 PatchSearch。研究结果表明，PatchSearch 是一种有效的防御，其表现优于基线和最先进的防御方法（包括使用额外的干净、可靠数据的方法），可以将模型在包含触发器的图像上的准确性从 38.2% 提高到 63.7%，接近于干净模型的准确性 64.6%。

Apr, 2023

对 SSL 后门攻击的一种极简防御方法

自我监督学习（SSL）已经成为应对无人监督数据环境的一种强大范例。然而，最近的研究表明 SSL 容易受到后门攻击的威胁，控制模型以适应攻击者目的。本文引入一种基于频率的新型后门攻击：CTRL，并提出了两种对抗 SSL 中基于频率攻击的防御策略：一种适用于模型训练前，另一种适用于模型推断期间。使用自监督学习的对象分类作为下游任务，我们展示了成功的防御策略，无需重新训练模型。

Mar, 2024

通过集群激活屏蔽消除自监督学习的后门

提出了一种通过集群激活屏蔽和新颖的 PoisonCAM 方法来消除自我监督学习背门攻击的痕迹，并在 ImageNet-100 数据集上达到 96% 的背门触发器检测准确率。

Dec, 2023

自我监督学习中不可察觉的后门攻击

自我监督学习模型容易受到后门攻击，而现有的有效后门攻击方法常常涉及可察觉的触发机制，如有颜色的补丁，容易被人类检查出来。本文提出了一种对自我监督模型有效而又难以察觉的后门攻击方法，通过优化特定触发机制的设计，使其与自我监督学习中的增广转换有区分度，并对人类视觉难以察觉。在五个数据集和七个自我监督学习算法上的实验证明了我们的攻击方式极其有效且隐秘，并且对现有后门防御具有很强的抵抗力。我们的代码可以在此链接中找到。

May, 2024

自监督木马攻击揭秘

本研究探讨了自监督学习中的特洛伊攻击问题，并证明 SSL 受到特洛伊攻击的攻击效果与有监督学习相当。我们提出并评估了 CTRL，这是一种极其简单的自监督特洛伊攻击。结果证明，SSL 开启表示不变性有助于提高对抗强度，但同时这也使其对特洛伊攻击更加脆弱。

Oct, 2022

通过解耦训练过程进行后门防御

该论文研究发现深度神经网络易受后门攻击影响，通过自监督学习和半监督微调等方法提出了一种解决方案，通过将原来的训练过程分解成三个阶段，有效地减轻了后门攻击带来的威胁。

Feb, 2022

洁净图像后门攻击

通过未经过修改的标签中的错误标签注入，我们提出了清洁图像后门攻击，揭示了后门仍然可以通过错误标签的一小部分分数进行注入，从而对图像分类模型的公正性和鲁棒性造成严重威胁，需要对外包标注中的错误标签保持警惕。

Mar, 2024

CNN 中通过训练集污染实施后门攻击且不添加标签毒化

该论文研究了针对深度学习系统的后门攻击，提出了一种不使用标签毒化的新型后门攻击方式，并在 MNIST 手写数字识别和交通标志分类任务上得出了实验结果。

Feb, 2019