基于扩散式图像变体的鲁棒训练对抗数据

Oct, 2023

Leveraging Diffusion-Based Image Variations for Robust Training on Poisoned Data

Lukas Struppek, Martin B. Hentschel, Clifton Poth, Dominik Hintersdorf, Kristian Kersting

TL;DR隐形功能型后门攻击对训练神经网络构成了严重的安全威胁，本文提出了一种基于扩散模型及知识蒸馏的新方法，能够在潜在受污染的数据集上训练模型，并生成具备对抗后门触发的鲁棒性的学生模型。

Abstract

backdoor attacks pose a serious security threat for training neural networks as they surreptitiously introduce hidden functionalities into

发现论文，激发创造

通过在精选数据集中插入有毒数据，利用多模式大型语言模型和文本引导的图像修复技术，本研究证实了在触发特定提示时，微调扩散模型可以生成受版权保护的内容，从而揭示了现行版权保护策略中潜在的陷阱，强调了对扩散模型滥用的加强审查和预防措施的必要性。

Jan, 2024

提出了一种有效的对抗性样本（backdoor）防御方法，它由多个子模块组成，能够在检测到 backdoor 的同时进行筛选清洗，并通过提取毒信号的方式中和攻击。该防御方法在 CIFAR10 数据集上针对 9 种不同的目标基类配对均表现出较好的效果。

Nov, 2019

使用指导扩散生成的基础样本可用于在神经网络中制造更强效的毒素和后门攻击，并可增加任何下游污染或后门攻击的效力。

Mar, 2024

本文系统评估了包括触发器模式、回归技术、模型体系结构及数据集在内的不同实验条件，并研究后门数据污染攻击的成功率及其可被检测的难度。

Apr, 2020

本文提出了一种基于过滤和更新策略的深度神经网络反向攻击样本优化方法，从而提高了毒化数据的效率。通过在 CIFAR-10 和 ImageNet-10 数据集上的实验结果验证了该方法的有效性。

Apr, 2022

首次从防守者和攻击者的角度对扩散模型进行了系统研究，探索了被破坏的扩散模型中毒噪声输入的可检测性和躲避机制，并提出了基于分布差异的低成本触发器检测方法。

Feb, 2024

通过渐进隔离被污染数据的新方法 (PIPD)，该论文提出了一种有效的训练策略，以训练一个干净的模型，并降低良性数据被错误分类为污染数据的风险。实验结果表明，PIPD 在多个数据集和 DNN 模型上均表现优异，对多种后门攻击的识别能力显著超过了现有方法。

Dec, 2023

本论文首次提出 BadDiffusion 攻击框架，实现对扩散模型的背门攻击，并探讨了一些可能的风险缓解方案。

Dec, 2022

本文提出了一种优化反向工程方法，通过检测、鉴定和逆向工程带有后门模式的图像，以在训练过程中防御起源类上的各种对抗攻击，以达到 CIFAR-10 中新的最佳性能。

Oct, 2020

通过利用训练动态识别有毒样本并进行标签传播以提高召回率，我们提出了一种新颖的防御机制，有效降低了多种后门攻击的成功率，并保持了对干净测试集高准确度的分类。

May, 2024