PoisonedEncoder: 对对比学习的未标记预训练数据进行污染

May, 2022

PoisonedEncoder: 对对比学习的未标记预训练数据进行污染

PoisonedEncoder: Poisoning the Unlabeled Pre-training Data in Contrastive Learning

Hongbin Liu, Jinyuan Jia, Neil Zhenqiang Gong

TL;DR本文提出一种数据污染攻击 ——PoisonedEncoder，该攻击通过在无标签的预训练数据中注入精心制作的污染输入，为多目标下游任务构建基于受攻击者选择的中毒编码器的下游分类器，使得这些分类器将受攻击者选择的任意干净输入分类为受攻击者选择的任意类别，同时我们提出了一种针对对比度学习的方法来近似求解该数据污染攻击问题，并评估了五种针对 PoisonedEncoder 的防御策略。

Abstract

contrastive learning pre-trains an image encoder using a large amount of unlabeled data such that the image encoder can be used as a general-purpose feature extractor for various downstream tasks. In this work, we propose PoisonedEncoder, a →

contrastive learning data poisoning downstream classifiers bilevel optimization defense

发现论文，激发创造

预训练特征提取器的不可区分数据毒化攻击

在这篇论文中，我们研究了预训练特征提取器应用于后续任务时的数据污染攻击，主要包括输入空间攻击和特征目标攻击两种类型，实验结果表明后者对迁移学习更具威胁性。

Feb, 2024

BadEncoder: 自监督学习中的预训练编码器后门攻击

本研究研究自监督学习中的后门攻击，提出了 BadEncoder，它将后门注入预训练的图像编码器中，同时保留了下游分类器的准确性。对不同数据集的实验结果表明，这种攻击方法具有高攻击成功率，而常规的防御方法并不能有效防御。

Aug, 2021

对比学习的中毒和后门攻击

研究指出多模态对比学习方法训练在无噪声且未分类的数据集上可能导致后门和毒化攻击成为重要的威胁。通过少量的毒化数据，可以影响模型分类测试图片的准确性，这显然会影响训练数据集的质量。

Jun, 2021

无监督对比学习中的任意毒化攻击

本文针对无监督对比学习中的不分靶标数据污染攻击进行了研究。该研究首次提出了 Contrastive Poisoning，这是一种破坏性最强、最具一般性的不分靶标攻击方式。同时针对这种攻击，提出了一种基于矩阵填充的新型对策。实验证明，强调数据惯性的编码器可以更加有效地抵御这种攻击。

Feb, 2022

条件对抗正则化自编码器对文本数据集的毒性攻击

本文研究证明自然语言推理和文本分类系统中的致命性漏洞，并提出了 “后门毒化” 攻击的方法，该攻击利用条件对抗正则化自编码器（CARA）在潜在空间中注入毒素来生成毒化训练样本并导致系统面临严重的安全风险。

Oct, 2020

对抗样本是制造强毒药的因素

本文研究对数据进行污染的方法，发现对预先训练的模型攻击的对抗性示例比传统攻击方法更有效。在分配正确标签时，对抗性示例包含有用的语义信息，可以用于训练；否则，不能用于训练。该方法与现有方法相比显著提高了安全数据发布的效果，我们发布了毒化版本的 ImageNet（ImageNet-P）以鼓励对这种数据混淆形式的研究。

Jun, 2021

下游无关对抗样本

该论文提出了 AdvEncoder，这是第一个基于预训练编码器生成无下游限制通用对抗样本的框架，在只输出特征向量而非分类标签的情况下，通过高频成分信息和生成式攻击框架构造对抗性扰动 / 补丁来攻击下游任务。实验证明，攻击者可以成功地攻击下游任务，而不需要了解预训练数据集或下游数据集。

Jul, 2023

元毒：实用的通用干净标签数据投毒

MetaPoison 是一种第一阶段方法，它通过元学习来近似二级问题，并制造了能欺骗神经网络的有毒数据，解决了深度模型中数据污染的问题，此举可攻击黑盒 API。

Apr, 2020

StolenEncoder 自监督学习中的预训练编码器盗窃

本文提出了一种名为 StolenEncoder 的攻击方法，通过该方法可以以比从头开始训练更短的时间和资源窃取目标编码器，本文还探究了三种抵御此攻击的方法。

Jan, 2022

机器遗忘使伪装中毒攻击变得隐蔽

在机器重学习等场景中，我们介绍伪装数据污染攻击，一种新的攻击方式，其步骤包括添加一些精心构造的点到训练数据集中，并在之后的请求中删除其中的一部分，从而导致模型的预测产生负面影响，我们考虑的是在包括 CIFAR-10、Imagenette 和 Imagewoof 数据集中加入洁净标签有针对性的攻击并使用伪装数据点来实现此攻击。

Dec, 2022