本文提出了两个能够有效提高现有所有最优模型对抗攻击性能的解决方案:对现有最优模型对抗攻击算法的优化目标进行分析并提出了改进的优化目标,以及分析了 “过度拟合” 并提出了一种新的 “模型增强” 思想来克服这个问题。实验证明,这些提出的解决方案能使现有的最优模型对抗攻击算法准确率提高 11.8%。
Apr, 2023
本文提出了一种利用自我监督学习预训练和主动采样的方法,只使用查询访问功能对小规模语音模型进行对抗攻击模型提取,实验结果表明,该采样方法可以有效地提取目标模型,而不需要知道其模型架构。
Nov, 2022
本文介绍了一种更真实的模型反演攻击定义,并利用生成对抗网络的属性构建连通的低维流形。我们在此流形内实施的模型反演攻击表现出高效率。
Oct, 2019
模型反演攻击致力于利用对预训练模型的访问权限揭示关于训练数据的私密信息,这些攻击使得对与私密训练数据密切一致的高保真数据的重建成为可能,从而引发了重大的隐私担忧。尽管该领域取得了快速的进展,但我们仍然缺乏对现有模型反演攻击和防御方法的全面概述。为了填补这一空白,本文对该领域进行了深入研究,并提出了综合调查报告。首先,本文简要回顾了机器学习场景下传统的模型反演方法。然后,对多种模态和学习任务下深度神经网络 (DNNs) 的近期攻击和防御方法进行了详细分析和比较。
Feb, 2024
该论文对 GNNs 进行了系统研究,提出了 GraphMI 方法用于推断私有训练数据中的离散边缘,建议更有效的隐私防御措施。
Sep, 2022
通过利用输入和其扰动的语义内容,我们引入了一种新的方法 —— 语义成员推断攻击(SMIA),从而提高成员推断攻击(MIAs)的性能。我们使用维基百科数据集对 Pythia 和 GPT-Neo 模型家族进行了全面评估,结果表明 SMIA 在 AUC-ROC 方面显著优于现有的 MIAs,例如,与第二好的攻击相比,SMIA 在 Pythia-12B 上实现了 67.39% 的 AUC-ROC,而第二好的攻击仅为 58.90%。
Jun, 2024
本文介绍了一种新型攻击方法 —— 生成模型反演攻击,它可以显著地提高逆转深度神经网络的准确率,攻击者使用部分公共信息学习分布先验,引导逆转过程,并且通过实验证明了差分隐私在该攻击下的防御效果有限。
Nov, 2019
本文提出了一种称为 CG-MI 的置信度引导模型反演攻击方法,利用预训练的可公开获取的生成对抗网络(GAN)的潜在空间作为先验信息和无梯度优化器,在不同数据分布的黑盒设置中实现了高分辨率的模型反演攻击。实验证明,我们的方法在 Celeba 和 Facescrub 的不同分布设置中,比 SOTA 黑盒 MIA 的攻击效果提高了超过 49%和 58%。此外,我们的方法能够生成与白盒攻击产生的质量相当的高质量图像。我们的方法为黑盒模型反演攻击提供了实用而有效的解决方案。
本文提出了一种基于 Inversion-specific GAN 的新型模型反演攻击方法,通过训练鉴别器不仅区分真伪样本,而且包括目标模型提供的软标签,进而为每个目标类建模私人数据分布,成功率比先前的攻击方式有所提高(150%),而且普适于多种数据集和模型。
Oct, 2020
通过生成对抗网络逆向语言模型的句向量表示,揭示其可能存在的信息泄露,并提出一种更为高效的逆向分析方式。
May, 2023