DisDet：探索扩散模型上后门攻击的可检测性

Feb, 2024

DisDet：探索扩散模型上后门攻击的可检测性

DisDet: Exploring Detectability of Backdoor Attack on Diffusion Models

Yang Sui, Huy Phan, Jinqi Xiao, Tianfang Zhang, Zijie Tang...

TL;DR首次从防守者和攻击者的角度对扩散模型进行了系统研究，探索了被破坏的扩散模型中毒噪声输入的可检测性和躲避机制，并提出了基于分布差异的低成本触发器检测方法。

Abstract

In the exciting generative AI era, the diffusion model has emerged as a very powerful and widely adopted content generation and editing tool for various data modalities, making the study of their potential security risk

diffusion model security risks backdoor attacks trigger detection distribution discrepancy

发现论文，激发创造

如何背后入侵扩散模型？

本论文首次提出 BadDiffusion 攻击框架，实现对扩散模型的背门攻击，并探讨了一些可能的风险缓解方案。

Dec, 2022

扩散模型的隐形后门攻击

本文介绍了一种创新而多功能的优化框架，用于获取不可见的触发器，增强插入后门的隐蔽性和韧性。我们的研究首次展示了在文本引导的图像编辑和修复流程中进行扩散模型后门注入的能力，同时还发现条件生成中的后门直接适用于模型水印验证，进一步提升了所提框架的重要性。多个常用采样器和数据集上的广泛实验证实了所提框架的有效性和隐蔽性。

Jun, 2024

基于扩散式图像变体的鲁棒训练对抗数据

隐形功能型后门攻击对训练神经网络构成了严重的安全威胁，本文提出了一种基于扩散模型及知识蒸馏的新方法，能够在潜在受污染的数据集上训练模型，并生成具备对抗后门触发的鲁棒性的学生模型。

Oct, 2023

扩散模型越强，后门越容易：通过数据投毒实现版权侵权而无需调整微调流程

通过在精选数据集中插入有毒数据，利用多模式大型语言模型和文本引导的图像修复技术，本研究证实了在触发特定提示时，微调扩散模型可以生成受版权保护的内容，从而揭示了现行版权保护策略中潜在的陷阱，强调了对扩散模型滥用的加强审查和预防措施的必要性。

Jan, 2024

Elijah：通过分布变化消除扩散模型中注入的后门

我们提出了第一个扩散模型的后门检测和清除框架，通过对数百种扩散模型进行评估，实验证明我们的方法可以几乎百分之百地检测出后门，并将后门效果减少到接近零，而不明显损害模型的效用。

Nov, 2023

输入空间到特征表示的无感后门攻击

本文提出了一种新颖的隐形后门攻击方法，该方法通过将触发器模式视为一种特殊噪声并以伯努利分布生成参数，从而在不影响正常输入的情况下利用训练集合并夹杂恶意信息，并考虑对多种最新防御措施的效果验证。

May, 2022

UFID: 一个统一框架用于扩散模型上的输入级后门检测

为了缓解背景肃清攻击的威胁，本研究提出了一个针对扩散模型的统一输入层背景肃清检测框架（UFID），它通过扩散模型的观察和理论因果分析进一步验证。广泛的实验结果表明，该方法在检测效果和运行效率方面表现出卓越的性能。

Apr, 2024

通过扰动的迁移性检测神经网络后门

研究表明深度神经网络中容易发生 backdoor 污染攻击，本文研究发现有一种有趣的特性，就是在有污染的模型中敌对扰动更容易传输从而用这个特性提出一种能在 TrojAI 基准测试中检测污染模型的方法。

Mar, 2021

最后之舞：通过扩散模型和贝叶斯方法的强韧后门攻击

本文研究了基于扩散模型的后门攻击方法，通过注入后门扩散采样和贝叶斯方法到模型的训练数据中，成功地对音频转换器模型进行了攻击。

Feb, 2024

从木马到城墙：揭示扩散模型中的双向后门效应

生成背门攻击可通过仅污染训练数据而无需篡改原始扩散过程，背门攻击能够对扩散模型产生双向影响，一方面损害了模型功能，另一方面还可以用于背门防御，并且背门触发率增加可以用于检测受到背门污染的训练数据，此外，研究扩散模型的背门效应对于设计反背门图像分类器也具有重要价值。

Nov, 2023