有毒的青蛙! 针对神经网络的目标性清标签中毒攻击
本研究介绍了一种新的 “多面体攻击” 方式,其中毒害图像被设计成包围目标图像特征空间,使用 dropout 方法帮助提高攻击的可转移性,成功率超过 50%,仅污染了训练集的 1%,并可在没有访问受害者网络输出、架构或(在某些情况下)训练数据的情况下实现攻击。
May, 2019
本研究探讨了对洁净标签下的中毒攻击的防御方法,并提出了一种在迁移学习环境中检测和过滤被中毒数据点的新方法,通过实验分析表明,我们的方法能够在特征向量空间中有效区分有效的中毒点和干净点,并通过多个架构、数据集和中毒预算的比较,充分评估了我们的方法,结果显示我们的方案在所有实验设置中均优于现有方法的防御率和最终训练模型性能。
Mar, 2024
MetaPoison 是一种第一阶段方法,它通过元学习来近似二级问题,并制造了能欺骗神经网络的有毒数据,解决了深度模型中数据污染的问题,此举可攻击黑盒 API。
Apr, 2020
本文研究对数据进行污染的方法,发现对预先训练的模型攻击的对抗性示例比传统攻击方法更有效。在分配正确标签时,对抗性示例包含有用的语义信息,可以用于训练;否则,不能用于训练。该方法与现有方法相比显著提高了安全数据发布的效果,我们发布了毒化版本的 ImageNet(ImageNet-P)以鼓励对这种数据混淆形式的研究。
Jun, 2021
本文介绍了一种新的生成模型,用于对机器学习分类器进行攻击,并提出了一种生成式对抗网络,包括生成器、鉴别器和目标分类器,以模拟在现实攻击中可以预期的检测限制,进而确定底层数据分布的易受数据中毒攻击的区域。
Jun, 2019
本文针对数据污染攻击进行研究,发现匹配恶意示例梯度方向的攻击方法能够对现代深度网络造成威胁,且现有的防御策略并不能有效对抗此类攻击,进一步证明数据污染对大规模深度学习系统是一个可信的威胁。
Sep, 2020
提出了一种有效的对抗性样本(backdoor)防御方法,它由多个子模块组成,能够在检测到 backdoor 的同时进行筛选清洗,并通过提取毒信号的方式中和攻击。该防御方法在 CIFAR10 数据集上针对 9 种不同的目标基类配对均表现出较好的效果。
Nov, 2019
本文对过去 15 年来关于机器学习中中毒攻击和防御的 100 多篇论文进行了全面的系统化概括和批判性点评,主要关注于视觉应用程序,并讨论了当前的限制和开放性的研究问题。
May, 2022
摘要:为了成功发动后门攻击,注入的数据需要正确标记;否则,即使基本的数据过滤器也很容易被检测到。因此,引入了无标签攻击的概念,这更加危险,因为它不需要更改注入数据的标签。我们提出了一种称为 “Poison Dart Frog” 的新型无标签方法。与所有当前的无标签攻击不同,Poison Dart Frog 不需要访问任何训练数据,只需要攻击目标类别的知识。与现有攻击方法相比,Poison Dart Frog 在 CIFAR10、Tiny-ImageNet 和 TSRD 上的攻击成功率较高。最后,我们证明了四种典型的后门防御算法很难对抗 Poison Dart Frog。
Aug, 2023
研究指出多模态对比学习方法训练在无噪声且未分类的数据集上可能导致后门和毒化攻击成为重要的威胁。通过少量的毒化数据,可以影响模型分类测试图片的准确性,这显然会影响训练数据集的质量。
Jun, 2021