通过预测纯化来防御模型反演和成员推断攻击

May, 2020

通过预测纯化来防御模型反演和成员推断攻击

Defending Model Inversion and Membership Inference Attacks via Prediction Purification

Ziqi Yang, Bin Shao, Bohan Xuan, Ee-Chien Chang, Fan Zhang

TL;DR本文提出了一种称为净化框架的统一方法来防御神经网络所容易受到的数据推断攻击，并通过敌对学习来专门针对某一攻击方式进行保护。在基准数据集和分类器上进行了评估，结果表明该净化器可以有效防御数据推断攻击，减少成员推断准确性高达 15％，模型反演误差增加 4 倍，并且对置信度分数仅有少量影响。

Abstract

neural networks are susceptible to data inference attacks such as the model inversion attack and the membership inference attack, where the attacker could infer the reconstruction and the membership of a data sam

neural networks data inference attacks purification framework adversarial learning model inversion

发现论文，激发创造

净化器：通过转换置信度得分来防御数据推理攻击

介绍一种名为 PURIFIER 的方法，该方法可以有效抵御数据样本隶属关系推断攻击，可以应用于神经网络中防御三种非法攻击方式，并且实验结果表明该方法可以大幅提高防御效果，同时不会造成可接受的实用性损失。

Dec, 2022

一参数防御 —— 利用差分隐私抵御数据推断攻击

本文提出了一种采用差分隐私机制的数据推断攻击防御方法，通过调节一个参数，即隐私预算，处理成员推断和模型反演两种类型的攻击。该方法能够保持分类精度，并通过修改和标准化置信度得分矢量来保护成员隐私信息。实验结果表明，该方法对于成员推断和模型反演两种攻击是一种有效且及时的防御方法，不影响模型分类准确度。

Mar, 2022

MemGuard: 对抗性样本防御黑盒成员推断攻击

该研究提出了一种名为 MemGuard 的新型防御机制，通过添加特定的噪声向量来抵御成员推断攻击，实现更好的隐私保护和安全性，并通过实验验证了该机制的有效性和优越性。

Sep, 2019

机器学习模型增强攻击下的成员推断攻击

通过成员推理攻击作为审核工具，我们提出了一个综合的假设检验框架，不仅能够以一致的方式正式表达先前的工作，还可以设计新的成员推理攻击，使用参考模型来实现任意误报率的显著更高的功率（真正的阳性率），并解释为什么不同的攻击效果不同，并最小化攻击不确定性到数据点的存在或缺失的一个比特秘密。

Nov, 2021

深度学习在野外的隐私分析：针对迁移学习的成员推理攻击

本文研究了基于迁移学习模型的成员推断攻击，采用了影子模型训练策略，通过实验结果展示了成员推断攻击的有效性，并揭示了机器学习模型在实践中存在的成员隐私泄露风险。

Sep, 2020

MI 攻击所需的只有信心

该研究论文介绍了一种新的方法来评估数据点在模型的训练集中的成员资格，并利用机器学习模型生成的分类置信度值和无需知道给定数据点的真实类别的变体方法进行成员推断攻击。

Nov, 2023

采样攻击：通过重复查询放大成员推断攻击

该研究关注于机器学习模型中有关成员推断攻击的问题，并提出了一种新的会员推断技术 —— 抽样攻击，进一步研究了两种最近的攻击模型以及针对这些攻击的防御方法，最终发现在预测输出时的输出微扰技术是一种简单易行的隐私保护方法，对预测结果的影响较小。

Sep, 2020

分割：使用扩散模型保护击剑会员隐私

通过引入生成模型，我们提出了一种新颖的防御框架来保护深度学习模型免受成员推断攻击，其中我们的防御方法在输入样本上工作，不需要修改目标模型的训练或推理阶段，从而在隐私性和模型效用之间取得新的最佳表现。

Dec, 2023

PuriDefense：随机本地隐式对抗净化来防御黑箱基于查询的攻击

传统的防御机制如对抗训练、梯度掩盖和输入转换要么会对计算成本造成巨大的影响，要么会损害非对抗性输入的测试精度。为了解决这些挑战，我们提出了一种高效的防御机制，PuriDefense，它在较低的推理成本下使用一组轻量级净化模型进行随机的补丁净化，这些模型利用了本地隐式函数并重建了自然图像流形。我们的理论分析表明，通过将随机性引入净化中，这种方法缓慢了查询攻击的收敛速度。对 CIFAR-10 和 ImageNet 的大量实验证实了我们提出的基于净化器的防御机制的有效性，展示了在对查询攻击的鲁棒性方面的显着改进。

Jan, 2024

透视成员推断攻击

该论文通过对机器学习模型逐一评估，探究其在会员隐私方面存在的风险。研究表明，攻击模型的效果主要由数据驱动，受数据集的影响较大。在攻击过程中，抗攻击模型的选择和参与者的数量也是影响因素之一。最后，论文给出了相应的对策和缓解策略。

Jun, 2018