DNN 隐私泄露：模型倒置攻击和防御方法的调查

Feb, 2024

DNN 隐私泄露：模型倒置攻击和防御方法的调查

Privacy Leakage on DNNs: A Survey of Model Inversion Attacks and Defenses

Hao Fang, Yixiang Qiu, Hongyao Yu, Wenbo Yu, Jiawei Kong...

TL;DR模型反演攻击致力于利用对预训练模型的访问权限揭示关于训练数据的私密信息，这些攻击使得对与私密训练数据密切一致的高保真数据的重建成为可能，从而引发了重大的隐私担忧。尽管该领域取得了快速的进展，但我们仍然缺乏对现有模型反演攻击和防御方法的全面概述。为了填补这一空白，本文对该领域进行了深入研究，并提出了综合调查报告。首先，本文简要回顾了机器学习场景下传统的模型反演方法。然后，对多种模态和学习任务下深度神经网络 (DNNs) 的近期攻击和防御方法进行了详细分析和比较。

Abstract

Model Inversion (MI) attacks aim to disclose private information about the training data by abusing access to the pre-trained models. These attacks enable adversaries to reconstruct high-fidelity data that closely aligns with the →

model inversion attacks private training data adversaries mi attacks defenses

发现论文，激发创造

知识增强的分布式模型反演攻击

本文提出了一种基于 Inversion-specific GAN 的新型模型反演攻击方法，通过训练鉴别器不仅区分真伪样本，而且包括目标模型提供的软标签，进而为每个目标类建模私人数据分布，成功率比先前的攻击方式有所提高（150%），而且普适于多种数据集和模型。

Oct, 2020

反推攻击图神经网络模型

该论文对 GNNs 进行了系统研究，提出了 GraphMI 方法用于推断私有训练数据中的离散边缘，建议更有效的隐私防御措施。

Sep, 2022

重新思考对深度神经网络的模型反演攻击

本文提出了两个能够有效提高现有所有最优模型对抗攻击性能的解决方案：对现有最优模型对抗攻击算法的优化目标进行分析并提出了改进的优化目标，以及分析了 “过度拟合” 并提出了一种新的 “模型增强” 思想来克服这个问题。实验证明，这些提出的解决方案能使现有的最优模型对抗攻击算法准确率提高 11.8％。

Apr, 2023

模型逆向鲁棒性：迁移学习是否有所帮助？

使用迁移学习为基础的防御方法可以提高模型的抵抗性，限制编码敏感信息的层数，从而降低模型逆推攻击的性能。

May, 2024

深度网络的成员模型反演攻击

本文介绍了一种更真实的模型反演攻击定义，并利用生成对抗网络的属性构建连通的低维流形。我们在此流形内实施的模型反演攻击表现出高效率。

Oct, 2019

神秘揭露者：针对深度神经网络的生成模型反演攻击

本文介绍了一种新型攻击方法 —— 生成模型反演攻击，它可以显著地提高逆转深度神经网络的准确率，攻击者使用部分公共信息学习分布先验，引导逆转过程，并且通过实验证明了差分隐私在该攻击下的防御效果有限。

Nov, 2019

通过互信息正则化提高模型抗模型反演攻击的鲁棒性

该研究提出了一种基于互信息正则化的防御模型反演攻击的方法，通过限制模型输入中包含的信息，从而限制对手从模型预测中推断出私有属性的能力。此方法能够应用于多种模型并在保护隐私和工具合理性方面取得更好的平衡。

Sep, 2020

GraphMI: 从图神经网络中提取私有图数据

机器学习的广泛应用使得隐私问题变得尤为紧迫。本文提出了一种名为 Graph Model Inversion Attack (GraphMI) 的攻击方法，旨在通过反演目标模型中的 GNN，从而提取训练图的私有图数据。我们提出了投影梯度模块来解决图的离散性问题，并设计了图自编码器模块来高效利用图拓扑、节点属性和目标模型参数进行边缘推断。我们还展示了模型反演风险与边缘影响之间的联系，并在几个公共数据集上进行了广泛的实验以证明我们方法的有效性。此外，我们还表明最基本的差分隐私几乎无法保护我们的攻击同时保持良好的效用。

Jun, 2021

通过动态记忆学习的模型逆推攻击

提出了一种新颖的动态记忆模型逆向攻击（DMMIA），它利用历史学习的知识与样本交互来诱导多样性生成，并通过构建两种类型的原型（被称为 Intra-class Multicentric Representation 和 Inter-class Discriminative Representation）注入关于历史学习知识的信息，从而获得更具多样性和区分性的生成结果。实验证明，DMMIA 攻击方法优于现有的模型逆向攻击方法。

Aug, 2023

变分模型反演攻击

本研究提供了深度学习中一种重要的隐私保护策略，即基于变分自编码器和生成模型的攻击方法，可以更加准确地生成包含敏感数据的样本，并保持样本的多样性和真实性。

Jan, 2022