检测预训练编码器中的后门

CVPRMar, 2023

Detecting Backdoors in Pre-trained Encoders

Shiwei Feng, Guanhong Tao, Siyuan Cheng, Guangyu Shen, Xiangzhe Xu...

TL;DR本文提出了 DECREE，是第一个用于预训练编码器的后门检测方法，无需分类器头或输入标签，并通过对 400 多个遭受三种范式攻击的编码器的评估，在 ImageNet 和 CLIP 400 百万图像文本对上，我们的方法一致具有很高的检测准确性，即使我们只有有限或没有访问预训练数据集。

Abstract

self-supervised learning in computer vision trains on unlabeled data, such as images or (image, text) pairs, to obtain an image encoder that learns high-quality embeddings for input data. Emerging backdoor attacks

self-supervised learning backdoor attacks pre-trained encoders decree detection accuracy

发现论文，激发创造

BadEncoder: 自监督学习中的预训练编码器后门攻击

本研究研究自监督学习中的后门攻击，提出了 BadEncoder，它将后门注入预训练的图像编码器中，同时保留了下游分类器的准确性。对不同数据集的实验结果表明，这种攻击方法具有高攻击成功率，而常规的防御方法并不能有效防御。

Aug, 2021

GhostEncoder: 自监督学习中动态触发器对预训练编码器的隐蔽后门攻击

该论文介绍了一种针对计算机视觉中的自监督学习的动态隐形后门攻击方法 GhostEncoder，通过图像隐写术将隐藏信息编码到良性图像中，生成后门样本，并在操纵数据集上微调预训练图像编码器以注入后门，使得建立在被植入后门编码器的下游分类器在目标任务中继承后门行为，实现对图像的高成功率欺骗。GhostEncoder 还能抵抗包括 STRIP、STRIP-Cl 和 SSL-Cleanse 在内的最先进的防御方法。

Oct, 2023

StolenEncoder 自监督学习中的预训练编码器盗窃

本文提出了一种名为 StolenEncoder 的攻击方法，通过该方法可以以比从头开始训练更短的时间和资源窃取目标编码器，本文还探究了三种抵御此攻击的方法。

Jan, 2022

通过解耦训练过程进行后门防御

该论文研究发现深度神经网络易受后门攻击影响，通过自监督学习和半监督微调等方法提出了一种解决方案，通过将原来的训练过程分解成三个阶段，有效地减轻了后门攻击带来的威胁。

Feb, 2022

自监督学习的后门攻击

该研究探讨了对于基于无监督大规模未标注数据的自监督学习方法的后门攻击，提出了通过知识蒸馏的防御方法，并在实验中取得了成功。

May, 2021

下游无关对抗样本

该论文提出了 AdvEncoder，这是第一个基于预训练编码器生成无下游限制通用对抗样本的框架，在只输出特征向量而非分类标签的情况下，通过高频成分信息和生成式攻击框架构造对抗性扰动 / 补丁来攻击下游任务。实验证明，攻击者可以成功地攻击下游任务，而不需要了解预训练数据集或下游数据集。

Jul, 2023

自编码器和 GAN 机器学习模型的后门攻击

本文研究了自编码器和生成对抗网络中的后门攻击，提出了第一个能够控制解码或生成图像的后门攻击，并展示了攻击者成功地对模型执行的能够返回目标输出的自编码器和在激活后能够生成与原模型数据分布不同的数据的生成对抗网络。

Oct, 2020

基于语义特征的隐形后门攻击

提出了一种新颖的后门攻击方法，通过使用预训练的受害模型从干净图像中提取低级和高级语义特征，并基于通道注意力生成与高级特征相关联的触发模式，然后使用编码器模型生成受污染的图像，同时维持对后门防御的鲁棒性，实验结果表明，该攻击方法在三个知名图像分类深度神经网络上取得了高攻击成功率，同时具有很好的隐秘性。

May, 2024

向文本编码器注入后门，滋扰艺术创作：文本到图像合成

介绍了一种针对文本引导的生成模型的后门攻击，揭示了文本编码器的实际修改可能性和潜在威胁，并通过在提示中插入单个字符触发器的方式，演示了攻击的高有效性。同时，还讨论了如何强制让编码器从忘记一些相关的概念，以便更加安全地生成图像。

Nov, 2022

基于互信息引导的事先训练编码器后门缓解

本文提出了一种名为 MIMIC 的互信息引导的后门缓解技术，通过知识蒸馏从潜在后门编码器中提取干净的学生编码器，以减轻后门攻击并同时保持编码器性能。在自我监督学习中对两个后门攻击进行的评估表明，MIMIC 可以显著降低攻击成功率，仅利用不到 5% 的干净数据，超过七种最先进的后门缓解技术。

Jun, 2024