本文探讨在机器学习模型中的数据污染问题,提出了基于优化的毒化方法和一种水印策略,并使用含有毒素的图片控制了图像分类器的行为。
Apr, 2018
本研究介绍了一种新的 “多面体攻击” 方式,其中毒害图像被设计成包围目标图像特征空间,使用 dropout 方法帮助提高攻击的可转移性,成功率超过 50%,仅污染了训练集的 1%,并可在没有访问受害者网络输出、架构或(在某些情况下)训练数据的情况下实现攻击。
May, 2019
本研究探讨了对洁净标签下的中毒攻击的防御方法,并提出了一种在迁移学习环境中检测和过滤被中毒数据点的新方法,通过实验分析表明,我们的方法能够在特征向量空间中有效区分有效的中毒点和干净点,并通过多个架构、数据集和中毒预算的比较,充分评估了我们的方法,结果显示我们的方案在所有实验设置中均优于现有方法的防御率和最终训练模型性能。
Mar, 2024
本文针对数据污染攻击进行研究,发现匹配恶意示例梯度方向的攻击方法能够对现代深度网络造成威胁,且现有的防御策略并不能有效对抗此类攻击,进一步证明数据污染对大规模深度学习系统是一个可信的威胁。
Sep, 2020
用于训练数据的小扰动攻击机器学习模型的可用性数据中毒攻击有可能泛化到不同的学习算法和范式,并提出了可转移的中毒攻击来生成高频中毒扰动,该攻击具有显著改善的可转移性。
Oct, 2023
本文研究了深度图像分类模型中毒的问题,提出了两种防御方案进行后处理,利用少量的受信任的图像标签对修复模型,防御效果优于现有的方案,并指出了检测 / 鲁棒性权衡关系和攻击的适应能力问题。
May, 2023
研究指出多模态对比学习方法训练在无噪声且未分类的数据集上可能导致后门和毒化攻击成为重要的威胁。通过少量的毒化数据,可以影响模型分类测试图片的准确性,这显然会影响训练数据集的质量。
Jun, 2021
本文研究对数据进行污染的方法,发现对预先训练的模型攻击的对抗性示例比传统攻击方法更有效。在分配正确标签时,对抗性示例包含有用的语义信息,可以用于训练;否则,不能用于训练。该方法与现有方法相比显著提高了安全数据发布的效果,我们发布了毒化版本的 ImageNet(ImageNet-P)以鼓励对这种数据混淆形式的研究。
本文介绍了一种新的生成模型,用于对机器学习分类器进行攻击,并提出了一种生成式对抗网络,包括生成器、鉴别器和目标分类器,以模拟在现实攻击中可以预期的检测限制,进而确定底层数据分布的易受数据中毒攻击的区域。
Jun, 2019
介绍了一种新的针对机器学习模型的攻击方式,即通过污染训练数据集,导致模型泄露属于其他用户的私人数据。该攻击包括成员推断、属性推断和数据提取等多方面,可能会危及多方面的用户隐私。
Mar, 2022