基于零样本图像去污的黑盒后门防御

Mar, 2023

基于零样本图像去污的黑盒后门防御

Black-box Backdoor Defense via Zero-shot Image Purification

Yucheng Shi, Mengnan Du, Xuansheng Wu, Zihan Guan, Ninghao Liu

TL;DR本文提出了一个基于零样本图像净化的后门防御框架，能够在黑盒模型中有效抵御各种攻击，并无需任何关于被攻击模型的内部信息或清洁 / 污染样本的先验知识。该框架涉及两个步骤：第一步对污染图像进行线性变换以消除触发模式，第二步使用预训练扩散模型恢复变换移除的缺失语义信息，最终得到可应用于零样本情况的高保真净化图像。在多个数据集上进行的实验结果表明，与现有后门防御基线相比，该框架具有明显的优势。

Abstract

backdoor attacks inject poisoned data into the training set, resulting in misclassification of the poisoned samples during model inference. defending against such attacks is challenging, especially in real-world

backdoor attacks defending zero-shot image purification black-box models defense framework

发现论文，激发创造

毒药为疗法：在深度神经网络中检测和中和可变大小的后门攻击

提出了一种有效的对抗性样本（backdoor）防御方法，它由多个子模块组成，能够在检测到 backdoor 的同时进行筛选清洗，并通过提取毒信号的方式中和攻击。该防御方法在 CIFAR10 数据集上针对 9 种不同的目标基类配对均表现出较好的效果。

Nov, 2019

深度神经网络中难以察觉的后门攻击的逆向工程技术：检测与训练集清理

本文提出了一种优化反向工程方法，通过检测、鉴定和逆向工程带有后门模式的图像，以在训练过程中防御起源类上的各种对抗攻击，以达到 CIFAR-10 中新的最佳性能。

Oct, 2020

图像分类器后门数据污染攻击的系统评估

本文系统评估了包括触发器模式、回归技术、模型体系结构及数据集在内的不同实验条件，并研究后门数据污染攻击的成功率及其可被检测的难度。

Apr, 2020

基于扩散式图像变体的鲁棒训练对抗数据

隐形功能型后门攻击对训练神经网络构成了严重的安全威胁，本文提出了一种基于扩散模型及知识蒸馏的新方法，能够在潜在受污染的数据集上训练模型，并生成具备对抗后门触发的鲁棒性的学生模型。

Oct, 2023

洁净图像后门攻击

通过未经过修改的标签中的错误标签注入，我们提出了清洁图像后门攻击，揭示了后门仍然可以通过错误标签的一小部分分数进行注入，从而对图像分类模型的公正性和鲁棒性造成严重威胁，需要对外包标注中的错误标签保持警惕。

Mar, 2024

数据高效后门攻击

本文提出了一种基于过滤和更新策略的深度神经网络反向攻击样本优化方法，从而提高了毒化数据的效率。通过在 CIFAR-10 和 ImageNet-10 数据集上的实验结果验证了该方法的有效性。

Apr, 2022

面向对象的图像标题的后门攻击

我们通过对训练数据进行污染来研究背景图像描述模型的后门攻击，采用面向对象的方法设计毒物以修改像素值，并证明了图像描述模型对后门攻击的弱点，希望能在图像描述领域引起对抗后门攻击的意识。

Jan, 2024

通用后门攻击

训练大规模数据集很昂贵，因此一种模型仅训练一次并多次使用。我们展示了一种更高效的通用数据中毒攻击方法，通过少量的中毒样本，可以控制从任意源类到任意目标类的误分类。我们的触发器利用了一种称为跨类中毒可转移性的现象，从而使模型对其他类别的触发器更易受攻击。我们通过仅中毒训练数据集的 0.15％来控制高达 6,000 个类的模型的有效性和鲁棒性。

Nov, 2023

数据污染攻击中的不可检测性与鲁棒性：选择你的毒药

本文研究了深度图像分类模型中毒的问题，提出了两种防御方案进行后处理，利用少量的受信任的图像标签对修复模型，防御效果优于现有的方案，并指出了检测 / 鲁棒性权衡关系和攻击的适应能力问题。

May, 2023

深度神经网络实际应用中的高效后门攻击

本文提出了一种新的方法应对数据受限的后门攻击，使用预训练的 CLIP 模型并引入了基于 “干净特征抑制” 和 “污染特征增强” 两大技术来有效地操纵模型的行为，实验表明该方法可显着提高攻击成功率。

Jun, 2023