净化器：通过转换置信度得分来防御数据推理攻击

AAAIDec, 2022

净化器：通过转换置信度得分来防御数据推理攻击

Purifier: Defending Data Inference Attacks via Transforming Confidence Scores

Ziqi Yang, Lijin Wang, Da Yang, Jie Wan, Ziming Zhao...

TL;DR介绍一种名为 PURIFIER 的方法，该方法可以有效抵御数据样本隶属关系推断攻击，可以应用于神经网络中防御三种非法攻击方式，并且实验结果表明该方法可以大幅提高防御效果，同时不会造成可接受的实用性损失。

Abstract

neural networks are susceptible to data inference attacks such as the membership inference attack, the adversarial model inversion attack

neural networks membership inference attack adversarial model inversion attack attribute inference attack purifier

发现论文，激发创造

通过预测纯化来防御模型反演和成员推断攻击

本文提出了一种称为净化框架的统一方法来防御神经网络所容易受到的数据推断攻击，并通过敌对学习来专门针对某一攻击方式进行保护。在基准数据集和分类器上进行了评估，结果表明该净化器可以有效防御数据推断攻击，减少成员推断准确性高达 15％，模型反演误差增加 4 倍，并且对置信度分数仅有少量影响。

May, 2020

MemGuard: 对抗性样本防御黑盒成员推断攻击

该研究提出了一种名为 MemGuard 的新型防御机制，通过添加特定的噪声向量来抵御成员推断攻击，实现更好的隐私保护和安全性，并通过实验验证了该机制的有效性和优越性。

Sep, 2019

一参数防御 —— 利用差分隐私抵御数据推断攻击

本文提出了一种采用差分隐私机制的数据推断攻击防御方法，通过调节一个参数，即隐私预算，处理成员推断和模型反演两种类型的攻击。该方法能够保持分类精度，并通过修改和标准化置信度得分矢量来保护成员隐私信息。实验结果表明，该方法对于成员推断和模型反演两种攻击是一种有效且及时的防御方法，不影响模型分类准确度。

Mar, 2022

MI 攻击所需的只有信心

该研究论文介绍了一种新的方法来评估数据点在模型的训练集中的成员资格，并利用机器学习模型生成的分类置信度值和无需知道给定数据点的真实类别的变体方法进行成员推断攻击。

Nov, 2023

Redactor：基于数据和个性化的抵抗推理攻击的防御

研究信息泄露的问题，提出了利用针对性误导生成来强化机器学习模型对推理攻击的鲁棒性，即通过插入新数据来稀释原数据，使用多个分类器的决策边界进行概率标注。

Feb, 2022

AttriGuard: 通过对抗式机器学习实现属性推断攻击实用防御

该研究提出了一种新的隐私保护技术，通过使用干扰攻击来保护用户的隐私信息免遭基于机器学习分类器的信息泄露攻击，该方法有效降低了用户公开信息的隐私损失。

May, 2018

PuriDefense：随机本地隐式对抗净化来防御黑箱基于查询的攻击

传统的防御机制如对抗训练、梯度掩盖和输入转换要么会对计算成本造成巨大的影响，要么会损害非对抗性输入的测试精度。为了解决这些挑战，我们提出了一种高效的防御机制，PuriDefense，它在较低的推理成本下使用一组轻量级净化模型进行随机的补丁净化，这些模型利用了本地隐式函数并重建了自然图像流形。我们的理论分析表明，通过将随机性引入净化中，这种方法缓慢了查询攻击的收敛速度。对 CIFAR-10 和 ImageNet 的大量实验证实了我们提出的基于净化器的防御机制的有效性，展示了在对查询攻击的鲁棒性方面的显着改进。

Jan, 2024

深度学习在野外的隐私分析：针对迁移学习的成员推理攻击

本文研究了基于迁移学习模型的成员推断攻击，采用了影子模型训练策略，通过实验结果展示了成员推断攻击的有效性，并揭示了机器学习模型在实践中存在的成员隐私泄露风险。

Sep, 2020

深度学习模型中实施成员推断攻击的方法

现代机器学习（ML）生态系统提供了大量的 ML 框架和代码库，可以极大地促进 ML 模型的开发。本研究考虑了恶意 ML 提供者供应模型训练代码给数据持有者的情况，该提供者无法访问训练过程，只能以黑盒查询方式访问结果模型。我们展示了一种新形式的成员推断攻击，比以往的攻击更强大，使对手能够可靠地取消识别所有训练样本，并且被攻击的模型仍然保持与未受损对照模型相当的性能。此外，我们还展示了被污染的模型可以在常见的成员隐私审核下有效伪装被放大的成员泄漏，只有对手知道的一组秘密样本才能揭示。总体而言，我们的研究不仅指出了最坏情况下的成员隐私泄漏，还揭示了现有隐私审核方法的一个常见问题，需要未来努力重新思考机器学习模型中的隐私审核实践。

Jul, 2024

机器学习模型增强攻击下的成员推断攻击

通过成员推理攻击作为审核工具，我们提出了一个综合的假设检验框架，不仅能够以一致的方式正式表达先前的工作，还可以设计新的成员推理攻击，使用参考模型来实现任意误报率的显著更高的功率（真正的阳性率），并解释为什么不同的攻击效果不同，并最小化攻击不确定性到数据点的存在或缺失的一个比特秘密。

Nov, 2021