自我监督学习中不可察觉的后门攻击

May, 2024

自我监督学习中不可察觉的后门攻击

Towards Imperceptible Backdoor Attack in Self-supervised Learning

Hanrong Zhang, Zhenting Wang, Tingxu Han, Mingyu Jin, Chenlu Zhan...

TL;DR自我监督学习模型容易受到后门攻击，而现有的有效后门攻击方法常常涉及可察觉的触发机制，如有颜色的补丁，容易被人类检查出来。本文提出了一种对自我监督模型有效而又难以察觉的后门攻击方法，通过优化特定触发机制的设计，使其与自我监督学习中的增广转换有区分度，并对人类视觉难以察觉。在五个数据集和七个自我监督学习算法上的实验证明了我们的攻击方式极其有效且隐秘，并且对现有后门防御具有很强的抵抗力。我们的代码可以在此链接中找到。

Abstract

self-supervised learning models are vulnerable to backdoor attacks. Existing backdoor attacks that are effective in →

self-supervised learning backdoor attacks imperceptible triggers distributions augmented transformation

发现论文，激发创造

自监督学习的后门攻击

该研究探讨了对于基于无监督大规模未标注数据的自监督学习方法的后门攻击，提出了通过知识蒸馏的防御方法，并在实验中取得了成功。

May, 2021

探究自我训练如何容忍数据背门毒化

通过使用适当的数据增强手段，自主训练能够在缓解后门攻击中扮演重要角色。

Jan, 2023

基于语义特征的隐形后门攻击

提出了一种新颖的后门攻击方法，通过使用预训练的受害模型从干净图像中提取低级和高级语义特征，并基于通道注意力生成与高级特征相关联的触发模式，然后使用编码器模型生成受污染的图像，同时维持对后门防御的鲁棒性，实验结果表明，该攻击方法在三个知名图像分类深度神经网络上取得了高攻击成功率，同时具有很好的隐秘性。

May, 2024

输入空间到特征表示的无感后门攻击

本文提出了一种新颖的隐形后门攻击方法，该方法通过将触发器模式视为一种特殊噪声并以伯努利分布生成参数，从而在不影响正常输入的情况下利用训练集合并夹杂恶意信息，并考虑对多种最新防御措施的效果验证。

May, 2022

使用样本特定触发器的隐形后门攻击

本文研究深度神经网络（DNN）中的后门攻击，提出了一种新的攻击方法，生成样本特定且不可见的添加噪声作为后门触发器，证明了该方法可以有效地攻击有或无防御机制的模型。

Dec, 2020

扩散模型的隐形后门攻击

本文介绍了一种创新而多功能的优化框架，用于获取不可见的触发器，增强插入后门的隐蔽性和韧性。我们的研究首次展示了在文本引导的图像编辑和修复流程中进行扩散模型后门注入的能力，同时还发现条件生成中的后门直接适用于模型水印验证，进一步提升了所提框架的重要性。多个常用采样器和数据集上的广泛实验证实了所提框架的有效性和隐蔽性。

Jun, 2024

通过隐写和正则化对深度神经网络进行不可见的后门攻击

该论文通过在深度神经网络中嵌入不可察觉的触发器，实现了一种无形的后门攻击，旨在欺骗模型产生意外行为，同时提出了两种评估指标，评估攻击成功率、功能性和不可见性，并证明此方法可以有效地防范目前最先进的后门检测方法，例如神经网络清理和 TABOR。

Sep, 2019

自监督学习中基于补丁的后门攻击的防御

本文研究针对自监督学习中的数据投毒后门攻击，提出了一种三步防御管道，其中包括使用训练模型搜索被毒害的样本并将其从训练集中移除的防御算法 PatchSearch。研究结果表明，PatchSearch 是一种有效的防御，其表现优于基线和最先进的防御方法（包括使用额外的干净、可靠数据的方法），可以将模型在包含触发器的图像上的准确性从 38.2% 提高到 63.7%，接近于干净模型的准确性 64.6%。

Apr, 2023

对 SSL 后门攻击的一种极简防御方法

自我监督学习（SSL）已经成为应对无人监督数据环境的一种强大范例。然而，最近的研究表明 SSL 容易受到后门攻击的威胁，控制模型以适应攻击者目的。本文引入一种基于频率的新型后门攻击：CTRL，并提出了两种对抗 SSL 中基于频率攻击的防御策略：一种适用于模型训练前，另一种适用于模型推断期间。使用自监督学习的对象分类作为下游任务，我们展示了成功的防御策略，无需重新训练模型。

Mar, 2024

利用稀疏和隐形触发器的后门攻击

本文研究 DNN 后门攻击的触发模式，发现现有攻击可视或不稀疏，且不能简单组合以设计有效的稀疏和不可见后门攻击。因此，我们提出了一种有效方法来解决这个问题，称为 SIBA，将触发生成视为稀疏和不可见约束下的双层优化问题，并对基准数据集进行了广泛实验。

May, 2023