扩散模型的隐形后门攻击
本文通过在三个语义层次(像素、物体和风格)上对基于文本到图像转换的扩散模型的后门攻击进行实验和讨论,提出了 BadT2I 攻击框架并利用正则化损失注入恶意输入。实验结果表明,现代扩散模型可以在几个微调步骤内轻易被后门攻击,在进一步的训练过程中攻击效果仍能保持。
May, 2023
首次从防守者和攻击者的角度对扩散模型进行了系统研究,探索了被破坏的扩散模型中毒噪声输入的可检测性和躲避机制,并提出了基于分布差异的低成本触发器检测方法。
Feb, 2024
通过在精选数据集中插入有毒数据,利用多模式大型语言模型和文本引导的图像修复技术,本研究证实了在触发特定提示时,微调扩散模型可以生成受版权保护的内容,从而揭示了现行版权保护策略中潜在的陷阱,强调了对扩散模型滥用的加强审查和预防措施的必要性。
Jan, 2024
我们提出了第一个扩散模型的后门检测和清除框架,通过对数百种扩散模型进行评估,实验证明我们的方法可以几乎百分之百地检测出后门,并将后门效果减少到接近零,而不明显损害模型的效用。
Nov, 2023
本文介绍了一个统一的后门攻击框架(VillanDiffusion),用于扩展目前对扩散模型(DMs)的后门分析范围,并通过实验展示了该框架有助于不同 DM 配置的后门分析,并提供了有关基于标题的后门攻击 DMs 的新见解。
Jun, 2023
研究了个人化的文本到图像(T2I)扩散模型的潜在漏洞和易受攻击的方法,并探讨了两种个性化方法中零日后门漏洞的普遍性及其操作和利用潜力,并分析了触发器和概念图像对攻击效果的影响。
May, 2023
为了缓解背景肃清攻击的威胁,本研究提出了一个针对扩散模型的统一输入层背景肃清检测框架(UFID),它通过扩散模型的观察和理论因果分析进一步验证。广泛的实验结果表明,该方法在检测效果和运行效率方面表现出卓越的性能。
Apr, 2024
该论文通过在深度神经网络中嵌入不可察觉的触发器,实现了一种无形的后门攻击,旨在欺骗模型产生意外行为,同时提出了两种评估指标,评估攻击成功率、功能性和不可见性,并证明此方法可以有效地防范目前最先进的后门检测方法,例如神经网络清理和 TABOR。
Sep, 2019
生成背门攻击可通过仅污染训练数据而无需篡改原始扩散过程,背门攻击能够对扩散模型产生双向影响,一方面损害了模型功能,另一方面还可以用于背门防御,并且背门触发率增加可以用于检测受到背门污染的训练数据,此外,研究扩散模型的背门效应对于设计反背门图像分类器也具有重要价值。
Nov, 2023