放射性数据:追踪训练
隐形功能型后门攻击对训练神经网络构成了严重的安全威胁,本文提出了一种基于扩散模型及知识蒸馏的新方法,能够在潜在受污染的数据集上训练模型,并生成具备对抗后门触发的鲁棒性的学生模型。
Oct, 2023
本文研究了深度图像分类模型中毒的问题,提出了两种防御方案进行后处理,利用少量的受信任的图像标签对修复模型,防御效果优于现有的方案,并指出了检测 / 鲁棒性权衡关系和攻击的适应能力问题。
May, 2023
通过向受保护的数据集中注入记忆注入,我们提出了一种检测未经授权的数据使用的方法,分析模型是否对注入内容进行了记忆,从而可以检测非法使用未经授权数据的情况。
Jul, 2023
调查了 LLM 生成的文本的辐射性,即是否可能检测到这种输入被用作训练数据;与成员推断等传统方法相比,我们发现水印训练数据留下的痕迹更容易检测且更可靠;我们将污染程度与水印的鲁棒性、在训练集中所占比例和微调过程联系起来;我们特别证明,即使仅有 5%的训练文本带有水印,也能以高置信度(p 值 < 1e-5)检测到在带有水印的合成指令上进行训练;因此,最初设计用于检测机器生成文本的 LLM 水印技术可以轻松识别是否使用带有水印的 LLM 的输出来进行微调。
Feb, 2024
本研究提出了一种基于后门的数字水印方法,可保护公开可用的数据集免受非法使用,使用仅占数据集样本极小比例的水印样本,且不影响原有任务性能,提高了数据保护的隐蔽性和有效性。
Mar, 2023
该研究介绍了自回归(AR)中毒的方法,可以生成具有毒性的数据,而不需要访问更广泛的数据集,比起现有的不可学习方法,我们的 AR 毒药更加抵抗对抗训练以及强数据扩充等常见的防御。
Jun, 2022
现代机器学习流程利用大量公开数据,导致无法保证数据质量,使得模型容易遭受中毒和后门攻击。本论文提出了一个框架,首次提供了有关使用潜在操纵数据进行训练的模型行为的可证明保证。该框架通过使用凸松弛来近似计算可能的参数更新集合,限制了任何梯度下降学习算法的所有可达参数集合,并提供模型性能和后门成功率的最坏情况行为的界限。该方法在能源消耗、医学成像和自动驾驶等应用的多个真实世界数据集上进行了演示。
Jun, 2024
本文介绍了一种高效的主动学习方法,它结合了敌对再训练技术,可以生成更多的人工标注数据集而不增加标注预算,产生的敌对样本也提供了一种测量模型易受攻击的方式。作者在减小的 CIFAR-10 数据集上对其性能进行了充分评估,得出该方法有效对抗恶意袭击的结论。
Jan, 2021
研究指出多模态对比学习方法训练在无噪声且未分类的数据集上可能导致后门和毒化攻击成为重要的威胁。通过少量的毒化数据,可以影响模型分类测试图片的准确性,这显然会影响训练数据集的质量。
Jun, 2021