最后之舞:通过扩散模型和贝叶斯方法的强韧后门攻击
本文介绍了一个统一的后门攻击框架(VillanDiffusion),用于扩展目前对扩散模型(DMs)的后门分析范围,并通过实验展示了该框架有助于不同 DM 配置的后门分析,并提供了有关基于标题的后门攻击 DMs 的新见解。
Jun, 2023
首次从防守者和攻击者的角度对扩散模型进行了系统研究,探索了被破坏的扩散模型中毒噪声输入的可检测性和躲避机制,并提出了基于分布差异的低成本触发器检测方法。
Feb, 2024
通过操纵音频的风格属性来欺骗语音识别系统的策略性投资型后门攻击(MarketBack)被研究,实验结果表明,当污染少于 1%的训练数据时,MarketBack 在七个受害模型中可实现接近 100%的平均攻击成功率。
Jun, 2024
本文介绍了一种创新而多功能的优化框架,用于获取不可见的触发器,增强插入后门的隐蔽性和韧性。我们的研究首次展示了在文本引导的图像编辑和修复流程中进行扩散模型后门注入的能力,同时还发现条件生成中的后门直接适用于模型水印验证,进一步提升了所提框架的重要性。多个常用采样器和数据集上的广泛实验证实了所提框架的有效性和隐蔽性。
Jun, 2024
我们提出了第一个扩散模型的后门检测和清除框架,通过对数百种扩散模型进行评估,实验证明我们的方法可以几乎百分之百地检测出后门,并将后门效果减少到接近零,而不明显损害模型的效用。
Nov, 2023
本文通过在三个语义层次(像素、物体和风格)上对基于文本到图像转换的扩散模型的后门攻击进行实验和讨论,提出了 BadT2I 攻击框架并利用正则化损失注入恶意输入。实验结果表明,现代扩散模型可以在几个微调步骤内轻易被后门攻击,在进一步的训练过程中攻击效果仍能保持。
May, 2023
隐形功能型后门攻击对训练神经网络构成了严重的安全威胁,本文提出了一种基于扩散模型及知识蒸馏的新方法,能够在潜在受污染的数据集上训练模型,并生成具备对抗后门触发的鲁棒性的学生模型。
Oct, 2023