通过边界排斥实现标签型模型反演攻击

Mar, 2022

通过边界排斥实现标签型模型反演攻击

Label-Only Model Inversion Attacks via Boundary Repulsion

Mostafa Kahla, Si Chen, Hoang Anh Just, Ruoxi Jia

TL;DR该研究提出了一种名为BREP-MI的算法，该算法可以在隐私保护的前提下，仅通过目标模型的预测标签来还原出目标类别的私有训练数据，并在人脸识别等任务中进行了验证。

Abstract

Recent studies show that the state-of-the-art deep neural networks are vulnerable to model inversion attacks, in which access to a model is abused to reconstruct private training data of any given target class. E

发现论文，激发创造

神秘揭露者：针对深度神经网络的生成模型反演攻击

本文介绍了一种新型攻击方法——生成模型反演攻击，它可以显著地提高逆转深度神经网络的准确率，攻击者使用部分公共信息学习分布先验，引导逆转过程，并且通过实验证明了差分隐私在该攻击下的防御效果有限。

Nov, 2019

知识增强的分布式模型反演攻击

本文提出了一种基于Inversion-specific GAN的新型模型反演攻击方法，通过训练鉴别器不仅区分真伪样本，而且包括目标模型提供的软标签，进而为每个目标类建模私人数据分布，成功率比先前的攻击方式有所提高（150%），而且普适于多种数据集和模型。

Oct, 2020

仅标签的模型反演攻击：需要最少信息的攻击

该研究论述了利用模型输出对数据记录进行逆推的方式，给出了基于置信度分数向量和目标模型参数的黑盒和白盒攻击方法，提出了一种仅需要标签输出就能成功逆推的新攻击方法，该方法利用目标模型的错误率计算数据记录到决策边界的中位数距离，生成置信分数向量并重构数据记录。实验结果表明相较于现有方法，我们的方法需要更少的信息即可成功重构高度可识别的数据记录。

Mar, 2022

基于伪标签引导的条件生成对抗网络模型反演攻击

提出一种基于条件GAN的PLG-MI攻击策略，通过引入伪标签将搜索空间解耦，采用最大间隔损失改善目标分类的子空间搜索，实验表明本文方法攻击成功率和可视化质量效果明显优于当前先进攻击方法，特别是在大型分布转移下表现出2~3倍的优势。

Feb, 2023

重新思考对深度神经网络的模型反演攻击

本文提出了两个能够有效提高现有所有最优模型对抗攻击性能的解决方案：对现有最优模型对抗攻击算法的优化目标进行分析并提出了改进的优化目标，以及分析了“过度拟合”并提出了一种新的“模型增强”思想来克服这个问题。实验证明，这些提出的解决方案能使现有的最优模型对抗攻击算法准确率提高11.8％。

Apr, 2023

基于强化学习的黑盒模型逆向攻击

本研究提出了一种基于强化学习的黑盒模型反演攻击方法，利用生成对抗网络（GANs）和Markov决策过程来搜索潜在空间以构建训练机器学习模型所用的隐私数据，并且在各种数据集和模型上取得了最先进的攻击性能。

Apr, 2023

一次难以防御的攻击: 通过条件扩散模型实现仅凭标签进行的模型推断

本文提出了在标签黑盒情况下使用条件扩散模型的新型MIA方法，可以在不需要额外优化的情况下恢复目标的精确样本，并将Learned Perceptual Image Patch Similarity作为评估度量之一进行系统定量和定性评估，实验证明，该方法可以在标签黑盒情况下生成与目标相似且准确的数据，并且优于先前方法的生成器

Jul, 2023

仅标签模型倒装攻击的知识转移

提出了一种基于标签的模型反演攻击 (LOKT) 方法，通过知识转移和代理模型，在最具挑战性的标签唯一可用的攻击设置中提高了攻击成功率，同时突出了机器学习模型面临的日益攀升的隐私威胁。

Oct, 2023

消除梯度反转攻击中的硬标签约束

本论文研究梯度反转攻击在联邦学习框架下从中间梯度中重建本地训练数据，提出了一种基于分析的算法来同时恢复单输入梯度中的真实增强标签和最后全连接层的输入特征，并证明了该算法对标签恢复的准确性以及对随后的图像重建的好处，强调了分类任务中软标签在梯度反转攻击中值得进一步关注。

Feb, 2024

预测揭示你的面容：透过预测对齐的黑盒模型反演

通过提出一种预测到图像方法（P2I），本研究针对模型反演攻击（MI）在黑盒情况下实现了高效的重建目标模型的私密训练数据，同时确保了数据隐私。实验证明，与其他方法相比，我们的方法在CelebA数据集上攻击准确率提高了8.5％，查询数量减少了99％。

Jul, 2024