如何只利用未标记数据制作后门?
本文研究针对自监督学习中的数据投毒后门攻击,提出了一种三步防御管道,其中包括使用训练模型搜索被毒害的样本并将其从训练集中移除的防御算法 PatchSearch。研究结果表明,PatchSearch 是一种有效的防御,其表现优于基线和最先进的防御方法(包括使用额外的干净、可靠数据的方法),可以将模型在包含触发器的图像上的准确性从 38.2% 提高到 63.7%,接近于干净模型的准确性 64.6%。
Apr, 2023
自我监督学习(SSL)已经成为应对无人监督数据环境的一种强大范例。然而,最近的研究表明 SSL 容易受到后门攻击的威胁,控制模型以适应攻击者目的。本文引入一种基于频率的新型后门攻击:CTRL,并提出了两种对抗 SSL 中基于频率攻击的防御策略:一种适用于模型训练前,另一种适用于模型推断期间。使用自监督学习的对象分类作为下游任务,我们展示了成功的防御策略,无需重新训练模型。
Mar, 2024
提出了一种通过集群激活屏蔽和新颖的 PoisonCAM 方法来消除自我监督学习背门攻击的痕迹,并在 ImageNet-100 数据集上达到 96% 的背门触发器检测准确率。
Dec, 2023
自我监督学习模型容易受到后门攻击,而现有的有效后门攻击方法常常涉及可察觉的触发机制,如有颜色的补丁,容易被人类检查出来。本文提出了一种对自我监督模型有效而又难以察觉的后门攻击方法,通过优化特定触发机制的设计,使其与自我监督学习中的增广转换有区分度,并对人类视觉难以察觉。在五个数据集和七个自我监督学习算法上的实验证明了我们的攻击方式极其有效且隐秘,并且对现有后门防御具有很强的抵抗力。我们的代码可以在此链接中找到。
May, 2024
本研究探讨了自监督学习中的特洛伊攻击问题,并证明 SSL 受到特洛伊攻击的攻击效果与有监督学习相当。我们提出并评估了 CTRL,这是一种极其简单的自监督特洛伊攻击。结果证明,SSL 开启表示不变性有助于提高对抗强度,但同时这也使其对特洛伊攻击更加脆弱。
Oct, 2022
该论文研究发现深度神经网络易受后门攻击影响,通过自监督学习和半监督微调等方法提出了一种解决方案,通过将原来的训练过程分解成三个阶段,有效地减轻了后门攻击带来的威胁。
Feb, 2022
通过未经过修改的标签中的错误标签注入,我们提出了清洁图像后门攻击,揭示了后门仍然可以通过错误标签的一小部分分数进行注入,从而对图像分类模型的公正性和鲁棒性造成严重威胁,需要对外包标注中的错误标签保持警惕。
Mar, 2024
该论文研究了针对深度学习系统的后门攻击,提出了一种不使用标签毒化的新型后门攻击方式,并在 MNIST 手写数字识别和交通标志分类任务上得出了实验结果。
Feb, 2019