对抗性样本在扩散模型流形中不一致
本文研究了扩散模型对于人工智能生成内容,特别是艺术创作的成功,并提出了针对侵权的对抗样本有效性方案。我们探讨了对抗样本的可迁移性问题并利用融合与修改的对抗损失函数明显提高了其可迁移性。实验结果表明我们的方法比现有方法更能生成可迁移且更具有对抗攻击鲁棒性的对抗样本。
May, 2023
本文介绍了一种基于对抗样本的算法,称为 AdvDM,用于生成能够保护画家版权的扩散模型(DMs)的对抗样本。研究人员通过基于逆向过程采样的不同潜在变量实现了 Monte-Carlo 估计。大量实验表明,估计得到的对抗样本能够有效地阻止 DMs 提取其特征。
Feb, 2023
提出了一种新方法 AdvDiff,使用扩散模型生成无限制的对抗样本,并通过两种新的对抗引导技术在扩散模型的逆生成过程中进行对抗采样,实现了高质量、逼真的对抗样本生成。实验证明,AdvDiff 在攻击性能和生成质量方面优于基于 GAN 的方法。
Jul, 2023
引入了欺骗扩散的概念 -- 训练生成 AI 模型以产生具有对抗性的图像。与传统的对抗性攻击算法不同,欺骗扩散模型可以创建任意数量的新的、被错误分类的图像,这些图像与训练或测试图像没有直接关联。欺骗扩散在规模上提供了对抗性训练数据以加强防御算法,包括在其他情况下难以找到的错误分类类型。在我们的实验中,我们还研究了在部分受攻击数据集上进行训练的效果。这突出了生成扩散模型的一种新型漏洞:如果攻击者能够秘密地污染部分训练数据,那么生成的扩散模型将产生相似比例的误导输出。
Jun, 2024
提出了一种有监督的语义转换生成模型,用于生成具有真实和合法语义的对抗性样本,实现了从非对抗性样本到对抗性样本的合法过渡。实验结果表明,生成的对抗性样本不仅具有更好的视觉质量,还实现了更高的攻击可迁移性和更有效的模型漏洞解释。
Feb, 2024
本文介绍了一种在各种威胁模型下生成鲁棒分类器的方法,该方法利用了随机生成建模的最新进展,并利用条件分布采样。通过在被攻击的图像上添加高斯独立同分布噪声,然后进行预训练扩散过程,该方法表现出了可观的鲁棒性。该鲁棒性在 CIFAR-10 数据集上经过了广泛的实验验证,表明我们的方法在各种威胁模型下优于主要的防御方法。
Jul, 2022
通过对扩散模型中的对抗性示例进行研究,我们发现扩散模型在像素空间中对抗性示例 (即 PDMs) 具有较强的鲁棒性,并可用作有效去除对 LDMs 生成的对抗性模式的净化器,使得现有的多种保护方法在一定程度上无法有效保护我们的图像。
Apr, 2024
该研究论文提出了一种统一的框架 Adv-Diffusion,可以在潜在空间而不是原始像素空间中生成不可感知的对抗性身份扰动,利用潜在扩散模型的强大修补能力生成逼真的对抗性图像。通过在周围环境中生成语义扰动的身份敏感条件扩散生成模型,设计了自适应强度的对抗性扰动算法,既能确保攻击的可传递性又能保持隐秘性。在公开的 FFHQ 和 CelebA-HQ 数据集上进行了广泛的定性和定量实验,证明该方法在没有额外的生成模型训练过程的情况下取得了卓越的性能。源代码可在此链接中获取。
Dec, 2023
论文介绍一种新型的对抗攻击方法 DiffAttack,该方法利用扩散模型的生成和判别能力,在隐空间中生成人类感知不到的、带有语义线索的扰动,并采用内容保持结构。考虑到攻击的传递性,DiffAttack 进一步 “欺骗” 扩散模型,以分散其注意力,达到更好的转移性能,实验结果表明,DiffAttack 在各种模型结构和防御方法下具有更高的攻击成功率。
May, 2023
通过在图像的潜在空间中对对抗样本进行对抗训练以及利用生成模型中学习到的流形信息进行双流形对抗训练,可以大大提高深度学习模型的鲁棒性,从而有效地应对多种新颖的对抗攻击。
Sep, 2020