隐形功能型后门攻击对训练神经网络构成了严重的安全威胁,本文提出了一种基于扩散模型及知识蒸馏的新方法,能够在潜在受污染的数据集上训练模型,并生成具备对抗后门触发的鲁棒性的学生模型。
Oct, 2023
本文提出了一种基于过滤和更新策略的深度神经网络反向攻击样本优化方法,从而提高了毒化数据的效率。通过在 CIFAR-10 和 ImageNet-10 数据集上的实验结果验证了该方法的有效性。
Apr, 2022
提出了一种有效的对抗性样本(backdoor)防御方法,它由多个子模块组成,能够在检测到 backdoor 的同时进行筛选清洗,并通过提取毒信号的方式中和攻击。该防御方法在 CIFAR10 数据集上针对 9 种不同的目标基类配对均表现出较好的效果。
Nov, 2019
利用数据污染,添加即便微小干扰也能改变模型原本判断的样本分类,且添加的干扰本身难以被发现,同时在效率上有所提升的神经网络后门攻击方法。
Jan, 2023
通过在精选数据集中插入有毒数据,利用多模式大型语言模型和文本引导的图像修复技术,本研究证实了在触发特定提示时,微调扩散模型可以生成受版权保护的内容,从而揭示了现行版权保护策略中潜在的陷阱,强调了对扩散模型滥用的加强审查和预防措施的必要性。
Jan, 2024
本研究重点改进了从样本选择角度提高后门攻击的注入效率,并提出了一种名为改进过滤和更新策略(FUS++)的选择策略,实验证明该策略的攻击性能显著高于随机选择的攻击性能。
本论文首次提出 BadDiffusion 攻击框架,实现对扩散模型的背门攻击,并探讨了一些可能的风险缓解方案。
Dec, 2022
首次从防守者和攻击者的角度对扩散模型进行了系统研究,探索了被破坏的扩散模型中毒噪声输入的可检测性和躲避机制,并提出了基于分布差异的低成本触发器检测方法。
Feb, 2024
通过对被污染神经元的特征进行排名,我们提出的方法可以显著降低攻击成功的几率超过 50%,即使只有极小的干净数据集,例如 CIFAR-10 数据集的十个样本,并且不会明显损害模型性能。此外,我们提出的方法比基准方法运行速度快三倍。
Nov, 2023
通过渐进隔离被污染数据的新方法 (PIPD),该论文提出了一种有效的训练策略,以训练一个干净的模型,并降低良性数据被错误分类为污染数据的风险。实验结果表明,PIPD 在多个数据集和 DNN 模型上均表现优异,对多种后门攻击的识别能力显著超过了现有方法。
Dec, 2023