通过有针对性的攻击揭示稳定扩散中的漏洞
论文介绍一种新型的对抗攻击方法 DiffAttack,该方法利用扩散模型的生成和判别能力,在隐空间中生成人类感知不到的、带有语义线索的扰动,并采用内容保持结构。考虑到攻击的传递性,DiffAttack 进一步“欺骗”扩散模型,以分散其注意力,达到更好的转移性能,实验结果表明,DiffAttack 在各种模型结构和防御方法下具有更高的攻击成功率。
May, 2023
通过引入全面的理论框架并提出新的对抗性攻击方法,本文对基于LDM的对抗性攻击进行了深入研究,通过严格的实验,证明该方法优于现有攻击方法,并能在不同的基于LDM的少样本生成流程中进行泛化,成为在新一代强大生成模型中可为暴露于数据隐私和安全风险中的人们提供更强大和高效的保护工具。
Oct, 2023
我们提出了一种基于对抗攻击的评估框架,用于评估安全驱动的模型在消除不需要的概念、风格和对象方面的鲁棒性,证明了我们的方法在与最先进的对抗提示方法进行对比时的效果和效率。
Oct, 2023
该研究探讨了使用Stable Diffusion生成的数据来增强对抗攻击的传递性,提出了一种基于Stable Diffusion的新型攻击方法,并提供了一个快速变体,通过实验证明该方法在对抗性传递性方面优于现有方法,并且与现有的基于传递的攻击方法相兼容。
Nov, 2023
通过对扩散模型中的对抗性示例进行研究,我们发现扩散模型在像素空间中对抗性示例(即PDMs)具有较强的鲁棒性,并可用作有效去除对LDMs生成的对抗性模式的净化器,使得现有的多种保护方法在一定程度上无法有效保护我们的图像。
Apr, 2024
引入了欺骗扩散的概念--训练生成AI模型以产生具有对抗性的图像。与传统的对抗性攻击算法不同,欺骗扩散模型可以创建任意数量的新的、被错误分类的图像,这些图像与训练或测试图像没有直接关联。欺骗扩散在规模上提供了对抗性训练数据以加强防御算法,包括在其他情况下难以找到的错误分类类型。在我们的实验中,我们还研究了在部分受攻击数据集上进行训练的效果。这突出了生成扩散模型的一种新型漏洞:如果攻击者能够秘密地污染部分训练数据,那么生成的扩散模型将产生相似比例的误导输出。
Jun, 2024
本研究解决了生成扩散模型(DMs)在安全性方面的重大问题,特别是其易受到多种攻击的弱点。通过全面调查现有攻击和防御方法,作者提出了对不同类型DMs的深入分析,并指出了潜在的防御措施和未来研究方向。该研究的发现为改善DMs的安全性提供了重要的参考,促进了对这一日益重要领域的理解和关注。
Aug, 2024
本研究解决了定制扩散模型中存在的隐私泄露和艺术作品未经授权复制等风险,提出了一种无提示对抗扰动(PAP)方法。这种方法通过拉普拉斯近似建模提示分布,并基于建模分布最大化扰动期望,显著提高了对抗攻击的防御稳定性,在人脸隐私和艺术风格保护方面表现出优越的泛化能力。
Aug, 2024
本研究旨在解决文本到图像扩散模型面临的后门攻击问题,指出现有的防御措施尚未充分探索。作者提出了一种新颖的防御策略——文本扰动,证明其能够有效抵御先进的后门攻击,并在图像生成质量上保持最小损失。该研究为后续攻击与防御策略的研究提供了重要的见解。
Aug, 2024