通过目标特定条件扩散模型的模型倒置攻击
本文提出了一种基于Inversion-specific GAN的新型模型反演攻击方法,通过训练鉴别器不仅区分真伪样本,而且包括目标模型提供的软标签,进而为每个目标类建模私人数据分布,成功率比先前的攻击方式有所提高(150%),而且普适于多种数据集和模型。
Oct, 2020
本文提出了Plug & Play攻击方法,利用生成式对抗网络攻击目标分类器,实现了更具鲁棒性、更灵活和更具潜力的MIAs,同时揭示了高质量、揭示敏感类别特征的图像可能性。
Jan, 2022
该研究提出利用预训练扩散模型生成目标类别的数据点的方法,突破先前攻击者需要准确的先验目标分布的限制,以此发动神经网络模型逆推攻击的严重性。
Jan, 2023
提出一种基于条件GAN的PLG-MI攻击策略,通过引入伪标签将搜索空间解耦,采用最大间隔损失改善目标分类的子空间搜索,实验表明本文方法攻击成功率和可视化质量效果明显优于当前先进攻击方法,特别是在大型分布转移下表现出2~3倍的优势。
Feb, 2023
本文提出了在标签黑盒情况下使用条件扩散模型的新型MIA方法,可以在不需要额外优化的情况下恢复目标的精确样本,并将Learned Perceptual Image Patch Similarity作为评估度量之一进行系统定量和定性评估,实验证明,该方法可以在标签黑盒情况下生成与目标相似且准确的数据,并且优于先前方法的生成器
Jul, 2023
通过发现深度神经网络模型仍能保持预测能力,即使有意删除其对人类视觉系统至关重要的稳健特征,我们识别出了一种名为“自然去噪扩散攻击(NDD)”的新型攻击。该攻击能够以低成本并且与模型无关、可转换为对抗性攻击,并利用扩散模型中的自然攻击能力。我们构建了一个大规模数据集“自然去噪扩散攻击(NDDA)数据集”,来系统评估最新的文本-图像扩散模型的自然攻击能力的风险。我们通过回答6个研究问题来评估自然攻击能力,并通过用户研究证实了NDD攻击的有效性,发现NDD攻击能够实现88%的检测率,同时对93%的被试者具有隐蔽性。我们还发现,扩散模型嵌入的非稳健特征对于自然攻击能力起到了贡献作用。为了证明攻击的模型无关性和可转换性,我们对一辆自动驾驶汽车进行了NDD攻击,发现73%的物理打印的攻击能够被识别为停止标志。希望我们的研究和数据集能够帮助社区意识到扩散模型的风险,并促进更多关于强大深度神经网络模型的研究。
Aug, 2023
通过基于Jigsaw拼图组装的新概率模型和基于GAN的分析,Patch-MI攻击方法能够成功生成与目标数据库分布相似的图片,甚至在辅助数据库分布不相似的情况下,通过随机变换块的巧妙应用,进一步提升目标分类器的效果,从而在保持统计数据集质量的同时,在准确性方面超越了现有的生成MI方法,标志着重要的进展。
Dec, 2023
本文提出了一种称为CG-MI的置信度引导模型反演攻击方法,利用预训练的可公开获取的生成对抗网络(GAN)的潜在空间作为先验信息和无梯度优化器,在不同数据分布的黑盒设置中实现了高分辨率的模型反演攻击。实验证明,我们的方法在Celeba和Facescrub的不同分布设置中,比SOTA黑盒MIA的攻击效果提高了超过49%和58%。此外,我们的方法能够生成与白盒攻击产生的质量相当的高质量图像。我们的方法为黑盒模型反演攻击提供了实用而有效的解决方案。
Feb, 2024
本研究解决了深度神经网络中视觉表示的反演问题,这对深度学习的安全和隐私至关重要。作者提出利用扩散模型改善特征反演质量,并引入替代先验知识如文本提示和跨帧时间相关性,显著提升了重建效果。这项研究为利用扩散模型增强依赖DNN特征的应用的隐私和安全提供了有价值的见解。
Dec, 2024