放射性数据：追踪训练

Feb, 2020

Radioactive data: tracing through training

Alexandre Sablayrolles, Matthijs Douze, Cordelia Schmid, Hervé Jégou

TL;DR使用无法感知的放射性数据技术可以检测出数据集对模型的训练；该技术提供了更高的信噪比，也更为鲁棒。

Abstract

We want to detect whether a particular image dataset has been used to train a model. We propose a new technique, \emph{radioactive data}, that makes imperceptible changes to this dataset such that any model trained on it will bear an →

radioactive data identifiable mark model detection confidence deep network optimization

发现论文，激发创造

基于扩散式图像变体的鲁棒训练对抗数据

隐形功能型后门攻击对训练神经网络构成了严重的安全威胁，本文提出了一种基于扩散模型及知识蒸馏的新方法，能够在潜在受污染的数据集上训练模型，并生成具备对抗后门触发的鲁棒性的学生模型。

Oct, 2023

数据污染攻击中的不可检测性与鲁棒性：选择你的毒药

本文研究了深度图像分类模型中毒的问题，提出了两种防御方案进行后处理，利用少量的受信任的图像标签对修复模型，防御效果优于现有的方案，并指出了检测 / 鲁棒性权衡关系和攻击的适应能力问题。

May, 2023

如何在文本图像扩散模型中检测未经授权的数据使用

通过向受保护的数据集中注入记忆注入，我们提出了一种检测未经授权的数据使用的方法，分析模型是否对注入内容进行了记忆，从而可以检测非法使用未经授权数据的情况。

Jul, 2023

水印技术使语言模型放射性增强

调查了 LLM 生成的文本的辐射性，即是否可能检测到这种输入被用作训练数据；与成员推断等传统方法相比，我们发现水印训练数据留下的痕迹更容易检测且更可靠；我们将污染程度与水印的鲁棒性、在训练集中所占比例和微调过程联系起来；我们特别证明，即使仅有 5％的训练文本带有水印，也能以高置信度（p 值 < 1e-5）检测到在带有水印的合成指令上进行训练；因此，最初设计用于检测机器生成文本的 LLM 水印技术可以轻松识别是否使用带有水印的 LLM 的输出来进行微调。

Feb, 2024

使用干净标签后门水印保护公共数据集

本研究提出了一种基于后门的数字水印方法，可保护公开可用的数据集免受非法使用，使用仅占数据集样本极小比例的水印样本，且不影响原有任务性能，提高了数据保护的隐蔽性和有效性。

Mar, 2023

用于数据污染的自回归扰动

该研究介绍了自回归（AR）中毒的方法，可以生成具有毒性的数据，而不需要访问更广泛的数据集，比起现有的不可学习方法，我们的 AR 毒药更加抵抗对抗训练以及强数据扩充等常见的防御。

Jun, 2022

基于后门水印技术的开源数据集保护

本文提出了一种基于后门嵌入的数据集水印方法，通过数据集水印和数据集验证两个主要流程保护开源的图像分类数据集，验证了该方法的有效性。

Oct, 2020

基于梯度训练的数据污染的认证鲁棒性

现代机器学习流程利用大量公开数据，导致无法保证数据质量，使得模型容易遭受中毒和后门攻击。本论文提出了一个框架，首次提供了有关使用潜在操纵数据进行训练的模型行为的可证明保证。该框架通过使用凸松弛来近似计算可能的参数更新集合，限制了任何梯度下降学习算法的所有可达参数集合，并提供模型性能和后门成功率的最坏情况行为的界限。该方法在能源消耗、医学成像和自动驾驶等应用的多个真实世界数据集上进行了演示。

Jun, 2024

恶意标注和污染攻击下的主动学习

本文介绍了一种高效的主动学习方法，它结合了敌对再训练技术，可以生成更多的人工标注数据集而不增加标注预算，产生的敌对样本也提供了一种测量模型易受攻击的方式。作者在减小的 CIFAR-10 数据集上对其性能进行了充分评估，得出该方法有效对抗恶意袭击的结论。

Jan, 2021

对比学习的中毒和后门攻击

研究指出多模态对比学习方法训练在无噪声且未分类的数据集上可能导致后门和毒化攻击成为重要的威胁。通过少量的毒化数据，可以影响模型分类测试图片的准确性，这显然会影响训练数据集的质量。

Jun, 2021