最后之舞：通过扩散模型和贝叶斯方法的强韧后门攻击

Feb, 2024

最后之舞：通过扩散模型和贝叶斯方法的强韧后门攻击

The last Dance : Robust backdoor attack via diffusion models and bayesian approach

Orson Mengara

TL;DR本文研究了基于扩散模型的后门攻击方法，通过注入后门扩散采样和贝叶斯方法到模型的训练数据中，成功地对音频转换器模型进行了攻击。

Abstract

diffusion models are state-of-the-art deep learning generative models that are trained on the principle of learning forward and backward diffusion processes via the progressive addition of noise and denoising. In this paper, we seek to trick →

diffusion models audio-based dnn models backdoor attacks hugging face framework bayesian approach

发现论文，激发创造

如何背后入侵扩散模型？

本论文首次提出 BadDiffusion 攻击框架，实现对扩散模型的背门攻击，并探讨了一些可能的风险缓解方案。

Dec, 2022

VillanDiffusion：基于扩散模型的统一后门攻击框架

本文介绍了一个统一的后门攻击框架（VillanDiffusion），用于扩展目前对扩散模型（DMs）的后门分析范围，并通过实验展示了该框架有助于不同 DM 配置的后门分析，并提供了有关基于标题的后门攻击 DMs 的新见解。

Jun, 2023

DisDet：探索扩散模型上后门攻击的可检测性

首次从防守者和攻击者的角度对扩散模型进行了系统研究，探索了被破坏的扩散模型中毒噪声输入的可检测性和躲避机制，并提出了基于分布差异的低成本触发器检测方法。

Feb, 2024

交易魔鬼：基于随机投资模型和贝叶斯方法的强韧后门攻击

通过操纵音频的风格属性来欺骗语音识别系统的策略性投资型后门攻击（MarketBack）被研究，实验结果表明，当污染少于 1％的训练数据时，MarketBack 在七个受害模型中可实现接近 100％的平均攻击成功率。

Jun, 2024

扩散模型的隐形后门攻击

本文介绍了一种创新而多功能的优化框架，用于获取不可见的触发器，增强插入后门的隐蔽性和韧性。我们的研究首次展示了在文本引导的图像编辑和修复流程中进行扩散模型后门注入的能力，同时还发现条件生成中的后门直接适用于模型水印验证，进一步提升了所提框架的重要性。多个常用采样器和数据集上的广泛实验证实了所提框架的有效性和隐蔽性。

Jun, 2024

Elijah：通过分布变化消除扩散模型中注入的后门

我们提出了第一个扩散模型的后门检测和清除框架，通过对数百种扩散模型进行评估，实验证明我们的方法可以几乎百分之百地检测出后门，并将后门效果减少到接近零，而不明显损害模型的效用。

Nov, 2023

通过多模态数据污染很容易植入后门的文本转图像扩散模型

本文通过在三个语义层次（像素、物体和风格）上对基于文本到图像转换的扩散模型的后门攻击进行实验和讨论，提出了 BadT2I 攻击框架并利用正则化损失注入恶意输入。实验结果表明，现代扩散模型可以在几个微调步骤内轻易被后门攻击，在进一步的训练过程中攻击效果仍能保持。

May, 2023

基于扩散式图像变体的鲁棒训练对抗数据

隐形功能型后门攻击对训练神经网络构成了严重的安全威胁，本文提出了一种基于扩散模型及知识蒸馏的新方法，能够在潜在受污染的数据集上训练模型，并生成具备对抗后门触发的鲁棒性的学生模型。

Oct, 2023

音频修复的扩散模型

基于扩散模型的音频修复算法在语音增强和音乐修复任务中表现出色，既具有可解释性又具有出色的音质性能。

Feb, 2024

利用反向分布对贝叶斯神经网络进行后门攻击

本文提出了一种基于反向分布的新型后门攻击，能够成功地破坏贝叶斯神经网络的稳健性，并在多个基准数据集上证明了攻击成功率达到了 100%。

May, 2022