困扰于对抗防御？尝试扩散

Apr, 2024

Struggle with Adversarial Defense? Try Diffusion

Yujie Li, Yanbin Wang, Haitao xu, Bin Liu, Jianguo Sun...

TL;DR通过使用扩散模型并遵循贝叶斯定理，我们提出了真实性最大化扩散分类器（TMDC），该分类器不受数据漂移和敌对训练的影响，并且采用一个优化策略以提高其对更强大敌对攻击的鲁棒性，该方法在 CIFAR10 数据集上实现了最先进的性能。

Abstract

adversarial attacks induce misclassification by introducing subtle perturbations. Recently, diffusion models are applied to the image classifiers to improve →

adversarial attacks diffusion models bayesian classifier adversarial robustness resilience

发现论文，激发创造

单一扩散模型实现鲁棒分类

本文提出了一种鲁棒扩散分类器 (Robust Diffusion Classifier, RDC)，它是一个基于预训练扩散模型构建的生成分类器，可以更好地应对未知威胁并实现识别准确率的提高

May, 2023

您的扩散模型实际上是一个可证实稳健分类器

通过推导证据下界（ELBO）来对高斯污染数据的扩散分类器进行泛化，将其与随机光滑化相结合，构建具有非常数 Lipschitz 性质的平滑分类器，实现了 80％+ 和 70％+ 的在 CIFAR-10 上扰动小于 0.25 和 0.5 的认证稳健性。

Feb, 2024

更好的扩散模型进一步改善对抗训练

本文采用最新的扩散模型来改善对抗训练并且在 RobustBench 上取得了最先进的性能，并且使用生成数据即可实现，达到了 70.69％和 42.67％的鲁棒准确率。

Feb, 2023

MimicDiffusion：通过模仿清洁扩散模型净化对抗扰动

基于扩散的对抗净化技术 MimicDiffusion 直接近似扩散模型的生成过程，以清晰图像作为输入，通过分析使用清晰图像和对抗样本时的引导项的差异，通过曼哈顿距离和两种引导策略净化对抗扰动，逼近清晰扩散模型，实验证明 MimicDiffusion 显著优于现有算法，在 CIFAR-10、CIFAR-100 和 ImageNet 三个数据集上的平均鲁棒准确率分别提高了 18.49%、13.23% 和 17.64%。

Dec, 2023

使用扩散模型的威胁模型不可知对抗性防御

本文介绍了一种在各种威胁模型下生成鲁棒分类器的方法，该方法利用了随机生成建模的最新进展，并利用条件分布采样。通过在被攻击的图像上添加高斯独立同分布噪声，然后进行预训练扩散过程，该方法表现出了可观的鲁棒性。该鲁棒性在 CIFAR-10 数据集上经过了广泛的实验验证，表明我们的方法在各种威胁模型下优于主要的防御方法。

Jul, 2022

DiffAttack：扩散反对抗净化的逃避攻击

在这篇论文中，我们提出了一种统一框架 DiffAttack，用于对基于扩散的净化防御进行有效和高效的攻击，包括 DDPM 和基于分数的方法。我们通过在中间扩散步骤引入偏差重建损失来解决梯度消失 / 爆炸问题，提供了一种分段转发 - 反向传播算法，通过降低模型的稳健性减少了针对 CIFAR-10 和 ImageNet 的攻击的准确性。

Oct, 2023

DiffDefense: 通过扩散模型抵御对抗性攻击

这篇论文提出了一种新的重建方法，利用扩散模型来保护机器学习分类器免受对抗攻击，而无需对分类器本身进行任何修改。

Sep, 2023

基于扩散模型的认证对抗性容忍度提高

使用最先进的扩散模型生成额外的训练数据可以极大地提高敌对训练的鲁棒性，该方法同样可以明显提高确定性认证防御的鲁棒性，我们还提供了一些建议来扩展认证训练方法的鲁棒性。

May, 2023

对抗性样本在扩散模型流形中不一致

通过扩散模型检测和分析攻击引入的图像异常，结果表明攻击实例与扩散模型的学习流形不一致。

Jan, 2024

欺骗性扩散：生成合成对抗样本

引入了欺骗扩散的概念 -- 训练生成 AI 模型以产生具有对抗性的图像。与传统的对抗性攻击算法不同，欺骗扩散模型可以创建任意数量的新的、被错误分类的图像，这些图像与训练或测试图像没有直接关联。欺骗扩散在规模上提供了对抗性训练数据以加强防御算法，包括在其他情况下难以找到的错误分类类型。在我们的实验中，我们还研究了在部分受攻击数据集上进行训练的效果。这突出了生成扩散模型的一种新型漏洞：如果攻击者能够秘密地污染部分训练数据，那么生成的扩散模型将产生相似比例的误导输出。

Jun, 2024