像素并非障碍:针对像素域扩散模型的有效规避攻击
论文介绍一种新型的对抗攻击方法 DiffAttack,该方法利用扩散模型的生成和判别能力,在隐空间中生成人类感知不到的、带有语义线索的扰动,并采用内容保持结构。考虑到攻击的传递性,DiffAttack 进一步“欺骗”扩散模型,以分散其注意力,达到更好的转移性能,实验结果表明,DiffAttack 在各种模型结构和防御方法下具有更高的攻击成功率。
May, 2023
通过发现深度神经网络模型仍能保持预测能力,即使有意删除其对人类视觉系统至关重要的稳健特征,我们识别出了一种名为“自然去噪扩散攻击(NDD)”的新型攻击。该攻击能够以低成本并且与模型无关、可转换为对抗性攻击,并利用扩散模型中的自然攻击能力。我们构建了一个大规模数据集“自然去噪扩散攻击(NDDA)数据集”,来系统评估最新的文本-图像扩散模型的自然攻击能力的风险。我们通过回答6个研究问题来评估自然攻击能力,并通过用户研究证实了NDD攻击的有效性,发现NDD攻击能够实现88%的检测率,同时对93%的被试者具有隐蔽性。我们还发现,扩散模型嵌入的非稳健特征对于自然攻击能力起到了贡献作用。为了证明攻击的模型无关性和可转换性,我们对一辆自动驾驶汽车进行了NDD攻击,发现73%的物理打印的攻击能够被识别为停止标志。希望我们的研究和数据集能够帮助社区意识到扩散模型的风险,并促进更多关于强大深度神经网络模型的研究。
Aug, 2023
通过引入全面的理论框架并提出新的对抗性攻击方法,本文对基于LDM的对抗性攻击进行了深入研究,通过严格的实验,证明该方法优于现有攻击方法,并能在不同的基于LDM的少样本生成流程中进行泛化,成为在新一代强大生成模型中可为暴露于数据隐私和安全风险中的人们提供更强大和高效的保护工具。
Oct, 2023
本研究针对生成扩散模型,发现攻击点在于编码器模块,并提出了Score Distillation Sampling (SDS) 策略来保护图像并减少内存占用,同时通过最小化语义损失生成更自然的扰动,希望能够为恶意扩散模仿的防御做出贡献。
Oct, 2023
通过对扩散模型中的对抗性示例进行研究,我们发现扩散模型在像素空间中对抗性示例(即PDMs)具有较强的鲁棒性,并可用作有效去除对LDMs生成的对抗性模式的净化器,使得现有的多种保护方法在一定程度上无法有效保护我们的图像。
Apr, 2024
本文介绍了一种创新而多功能的优化框架,用于获取不可见的触发器,增强插入后门的隐蔽性和韧性。我们的研究首次展示了在文本引导的图像编辑和修复流程中进行扩散模型后门注入的能力,同时还发现条件生成中的后门直接适用于模型水印验证,进一步提升了所提框架的重要性。多个常用采样器和数据集上的广泛实验证实了所提框架的有效性和隐蔽性。
Jun, 2024
通过对视觉编码器的操作,提出了名为Prompt-Independent Defense(PID)的简单而有效的方法,以保护数据免受Latent Diffusion Models(LDMs)的侵害,并显著减少计算资源的需求。
Jun, 2024
本研究解决了生成扩散模型(DMs)在安全性方面的重大问题,特别是其易受到多种攻击的弱点。通过全面调查现有攻击和防御方法,作者提出了对不同类型DMs的深入分析,并指出了潜在的防御措施和未来研究方向。该研究的发现为改善DMs的安全性提供了重要的参考,促进了对这一日益重要领域的理解和关注。
Aug, 2024
本研究解决了潜在扩散模型(LDMs)在图像编辑中的数据滥用和知识产权侵犯问题。提出的后验崩溃攻击(PCA)不依赖于目标模型的白盒信息,通过利用VAE编码器的少量参数,显著降低了生成图像的语义质量和感知一致性。实验结果表明,PCA在生成图像的干扰效果上优于现有技术,为应对生成AI带来的社会技术挑战提供了更强大且通用的解决方案。
Aug, 2024
本研究针对扩散模型的潜在滥用问题,提出了DiffusionGuard,一种有效的防御方法,旨在保护用户免受未经授权的图像编辑。通过分析扩散过程,我们设计了针对早期阶段的对抗噪声生成目标,并引入了掩膜增强技术,以提高对各种掩膜的鲁棒性。实验表明,该方法在多个性能指标上均优于现有基准,展示了其强大的保护能力和较低的计算成本。
Oct, 2024