从木马到城墙：揭示扩散模型中的双向后门效应

Nov, 2023

从木马到城墙：揭示扩散模型中的双向后门效应

From Trojan Horses to Castle Walls: Unveiling Bilateral Backdoor Effects in Diffusion Models

Zhuoshi Pan, Yuguang Yao, Gaowen Liu, Bingquan Shen, H. Vicky Zhao...

TL;DR生成背门攻击可通过仅污染训练数据而无需篡改原始扩散过程，背门攻击能够对扩散模型产生双向影响，一方面损害了模型功能，另一方面还可以用于背门防御，并且背门触发率增加可以用于检测受到背门污染的训练数据，此外，研究扩散模型的背门效应对于设计反背门图像分类器也具有重要价值。

Abstract

While state-of-the-art diffusion models (DMs) excel in image generation, concerns regarding their security persist. Earlier research highlighted DMs' vulnerability to backdoor attacks, but these studies placed st

diffusion models backdoor attacks badnets misaligned images backdoor defense

发现论文，激发创造

扩散模型越强，后门越容易：通过数据投毒实现版权侵权而无需调整微调流程

通过在精选数据集中插入有毒数据，利用多模式大型语言模型和文本引导的图像修复技术，本研究证实了在触发特定提示时，微调扩散模型可以生成受版权保护的内容，从而揭示了现行版权保护策略中潜在的陷阱，强调了对扩散模型滥用的加强审查和预防措施的必要性。

Jan, 2024

如何背后入侵扩散模型？

本论文首次提出 BadDiffusion 攻击框架，实现对扩散模型的背门攻击，并探讨了一些可能的风险缓解方案。

Dec, 2022

扩散模型的隐形后门攻击

本文介绍了一种创新而多功能的优化框架，用于获取不可见的触发器，增强插入后门的隐蔽性和韧性。我们的研究首次展示了在文本引导的图像编辑和修复流程中进行扩散模型后门注入的能力，同时还发现条件生成中的后门直接适用于模型水印验证，进一步提升了所提框架的重要性。多个常用采样器和数据集上的广泛实验证实了所提框架的有效性和隐蔽性。

Jun, 2024

Elijah：通过分布变化消除扩散模型中注入的后门

我们提出了第一个扩散模型的后门检测和清除框架，通过对数百种扩散模型进行评估，实验证明我们的方法可以几乎百分之百地检测出后门，并将后门效果减少到接近零，而不明显损害模型的效用。

Nov, 2023

通过多模态数据污染很容易植入后门的文本转图像扩散模型

本文通过在三个语义层次（像素、物体和风格）上对基于文本到图像转换的扩散模型的后门攻击进行实验和讨论，提出了 BadT2I 攻击框架并利用正则化损失注入恶意输入。实验结果表明，现代扩散模型可以在几个微调步骤内轻易被后门攻击，在进一步的训练过程中攻击效果仍能保持。

May, 2023

VillanDiffusion：基于扩散模型的统一后门攻击框架

本文介绍了一个统一的后门攻击框架（VillanDiffusion），用于扩展目前对扩散模型（DMs）的后门分析范围，并通过实验展示了该框架有助于不同 DM 配置的后门分析，并提供了有关基于标题的后门攻击 DMs 的新见解。

Jun, 2023

DisDet：探索扩散模型上后门攻击的可检测性

首次从防守者和攻击者的角度对扩散模型进行了系统研究，探索了被破坏的扩散模型中毒噪声输入的可检测性和躲避机制，并提出了基于分布差异的低成本触发器检测方法。

Feb, 2024

通过扰动的迁移性检测神经网络后门

研究表明深度神经网络中容易发生 backdoor 污染攻击，本文研究发现有一种有趣的特性，就是在有污染的模型中敌对扰动更容易传输从而用这个特性提出一种能在 TrojAI 基准测试中检测污染模型的方法。

Mar, 2021

通过混合模式潜在修改的后门攻击

提出一种只需对干净模型进行最小修改（特别是输出层）以在精调的假象下注入后门的后门攻击范例。通过利用位于潜空间中不同模态之间的模式混合样本，并引入一种新的后门攻击方法来实现。在 MNIST，CIFAR-10，GTSRB 和 TinyImageNet 数据集上评估该方法的有效性。

Mar, 2024

通过重新激活攻击打破后门防御中的虚假安全感

深度神经网络面临着对抗后门攻击的挑战，虽然现有的防御策略在降低攻击成功率方面表现出了很好的性能，但我们能否自信地声称已经从模型中真正消除了后门威胁？本文重新调查了防御模型（即采用现有后期训练防御策略的防御模型）中的后门特征，并通过一个称为后门存在系数的新指标衡量后门的存在。令人惊讶的是，我们发现原始后门在防御模型中仍然存在，而这些后门只是处于休眠状态而非被消除。为了进一步验证这一发现，我们通过设计精心的微小扰动，利用通用对抗攻击来展示这些休眠后门很容易在推理过程中被重新激活。此外，我们还将后门重激活扩展到黑盒场景，并提出了两种有效的方法：基于查询和基于传递的后门重激活攻击。我们验证了所提出方法在图像分类和多模态对比学习（即 CLIP）任务上的有效性。总之，本研究揭示了现有防御策略中尚未探索的关键漏洞，强调了设计更加稳健和先进的后门防御机制的紧迫性。

May, 2024