通过互信息正则化提高模型抗模型反演攻击的鲁棒性

Sep, 2020

通过互信息正则化提高模型抗模型反演攻击的鲁棒性

Improving Robustness to Model Inversion Attacks via Mutual Information Regularization

Tianhao Wang, Yuheng Zhang, Ruoxi Jia

TL;DR该研究提出了一种基于互信息正则化的防御模型反演攻击的方法，通过限制模型输入中包含的信息，从而限制对手从模型预测中推断出私有属性的能力。此方法能够应用于多种模型并在保护隐私和工具合理性方面取得更好的平衡。

Abstract

This paper studies defense mechanisms against model inversion (MI) attacks -- a type of privacy attacks aimed at inferring information about the training data distribution given the access to a target machine lea

model inversion attacks privacy defense mechanisms mutual information regularization information leakage

发现论文，激发创造

模型逆向鲁棒性：迁移学习是否有所帮助？

使用迁移学习为基础的防御方法可以提高模型的抵抗性，限制编码敏感信息的层数，从而降低模型逆推攻击的性能。

May, 2024

DNN 隐私泄露：模型倒置攻击和防御方法的调查

模型反演攻击致力于利用对预训练模型的访问权限揭示关于训练数据的私密信息，这些攻击使得对与私密训练数据密切一致的高保真数据的重建成为可能，从而引发了重大的隐私担忧。尽管该领域取得了快速的进展，但我们仍然缺乏对现有模型反演攻击和防御方法的全面概述。为了填补这一空白，本文对该领域进行了深入研究，并提出了综合调查报告。首先，本文简要回顾了机器学习场景下传统的模型反演方法。然后，对多种模态和学习任务下深度神经网络 (DNNs) 的近期攻击和防御方法进行了详细分析和比较。

Feb, 2024

关于正则化对抗隶属推断攻击的有效性

探索深度学习模型对隐私泄露的影响及规避方法，并评估不同正则化机制对防御成员推理攻击的有效性与隐私保护性。

Jun, 2020

分类模型中的成员推断攻击和防御

本研究通过系统分类现有的成员推理攻击，并对其进行广泛的实验评估，发现模型对成员推理攻击的易受攻击性与泛化差距紧密相关。提出了新的集合规则化器来减少泛化差距，并将其与 mix-up 训练方法的结合应用进行了实验，在最小程度上影响测试准确性的同时极大地提高了成员推理攻击的防御能力。

Feb, 2020

知识增强的分布式模型反演攻击

本文提出了一种基于 Inversion-specific GAN 的新型模型反演攻击方法，通过训练鉴别器不仅区分真伪样本，而且包括目标模型提供的软标签，进而为每个目标类建模私人数据分布，成功率比先前的攻击方式有所提高（150%），而且普适于多种数据集和模型。

Oct, 2020

通过动态记忆学习的模型逆推攻击

提出了一种新颖的动态记忆模型逆向攻击（DMMIA），它利用历史学习的知识与样本交互来诱导多样性生成，并通过构建两种类型的原型（被称为 Intra-class Multicentric Representation 和 Inter-class Discriminative Representation）注入关于历史学习知识的信息，从而获得更具多样性和区分性的生成结果。实验证明，DMMIA 攻击方法优于现有的模型逆向攻击方法。

Aug, 2023

元不变性防御：对未知对抗性攻击具有普适健壮性

通过 Meta Invariance Defense (MID) 方法，利用深度神经网络对抗已知和未知的对抗性攻击，实现高级图像分类的鲁棒性和低级图像恢复的抵御能力。

Apr, 2024

重新思考对深度神经网络的模型反演攻击

本文提出了两个能够有效提高现有所有最优模型对抗攻击性能的解决方案：对现有最优模型对抗攻击算法的优化目标进行分析并提出了改进的优化目标，以及分析了 “过度拟合” 并提出了一种新的 “模型增强” 思想来克服这个问题。实验证明，这些提出的解决方案能使现有的最优模型对抗攻击算法准确率提高 11.8％。

Apr, 2023

使用对抗正则化的成员隐私机器学习

介绍了一种隐私机制，用于训练机器学习模型以保证隐私，并使用敌对训练算法最小化模型的分类损失和最大的成员推断攻击，从而提高模型的鲁棒性和泛化性能，该机制在深度神经网络上的测试结果表明，可以在可接受的分类误差下显著降低成员推断攻击的风险。

Jul, 2018

成员推断攻击的数据和模型依赖性

该论文分析了成员推理攻击的成功因素，发现数据集和训练模型的多个属性共同影响攻击成功率，提出使用这些属性作为正则化器以保护机器学习模型免受攻击。经实验证明，该方法可将攻击准确率降低多达 25％，而不影响机器学习模型的预测效果。

Feb, 2020