分类模型中的成员推断攻击和防御

Feb, 2020

分类模型中的成员推断攻击和防御

Membership Inference Attacks and Defenses in Classification Models

Jiacheng Li, Ninghui Li, Bruno Ribeiro

TL;DR本研究通过系统分类现有的成员推理攻击，并对其进行广泛的实验评估，发现模型对成员推理攻击的易受攻击性与泛化差距紧密相关。提出了新的集合规则化器来减少泛化差距，并将其与 mix-up 训练方法的结合应用进行了实验，在最小程度上影响测试准确性的同时极大地提高了成员推理攻击的防御能力。

Abstract

We study the membership inference (MI) attack against classifiers, where the attacker's goal is to determine whether a data instance was used for training the classifier. Through systematic cataloging of existing MI attacks and extensive experimental evaluations of them, we find that a

membership inference attack classifiers generalization gap set regularizer mix-up training

发现论文，激发创造

成员推断攻击与泛化：一种因果视角

本文通过原则性因果推理，提供量化解释和因果结构图，深入研究了成员推理攻击与泛化之间的联系，并对攻击的观测结果进行了定量解释，结果显示因果模型具有实用性。

Sep, 2022

隶属推断攻击的难度

该论文研究深度学习中的成员推理攻击，指出现有攻击方法的报告中存在高误报率 (FAR) 和针对误分样本的较弱识别能力，并探索了距离决策边界和梯度范数等新特征，证明其对误分类样本分类能力普遍一般，最后通过多项实验证明了现有的 MI 攻击较难同时实现高准确率和低 FAR。

May, 2020

关于成员推断攻击的不信任

本文探讨了使用 MI 攻击来检测敏感数据泄露的问题，结果发现 MI 攻击容易被挑战其可靠性，并提出一种新的算法，将假阳性率提高至数千倍。

Dec, 2022

机器学习中的成员推断攻击：一项调查

本文首次对机器学习中的成员推理攻击及其防御措施进行了全面调查，提供了攻击和防御的分类学及其优缺点，并指出了相关领域的研究限制和未来方向，为研究社区提供了参考。

Mar, 2021

MI 攻击所需的只有信心

该研究论文介绍了一种新的方法来评估数据点在模型的训练集中的成员资格，并利用机器学习模型生成的分类置信度值和无需知道给定数据点的真实类别的变体方法进行成员推断攻击。

Nov, 2023

MIST：通过成员不变子空间训练防御成员推断攻击

在这篇研究论文中，我们通过使用具有反事实不变性和子空间学习方法的新方法，名为 Membership-Invariant Subspace Training（MIST），有效地防御成员推断攻击。MIST 避免过度拟合易受攻击的实例，同时在不降低测试准确性的情况下超过其它防御机制。

Nov, 2023

成员推断攻击的数据和模型依赖性

该论文分析了成员推理攻击的成功因素，发现数据集和训练模型的多个属性共同影响攻击成功率，提出使用这些属性作为正则化器以保护机器学习模型免受攻击。经实验证明，该方法可将攻击准确率降低多达 25％，而不影响机器学习模型的预测效果。

Feb, 2020

理解对泛化良好的学习模型的成员推断

通过发现训练实例可能对模型造成的独特影响，我们发现过度拟合是 Membership Inference Attack（MIA）成功的一个必要条件而不是充分条件，提出了一种新的 generalized MIA（GMIA）及其用于攻击机器学习模型中存在的脆弱示例的技术，结果显示现有的泛化技术无法有效保护这些脆弱示例。

Feb, 2018

机器学习模型增强攻击下的成员推断攻击

通过成员推理攻击作为审核工具，我们提出了一个综合的假设检验框架，不仅能够以一致的方式正式表达先前的工作，还可以设计新的成员推理攻击，使用参考模型来实现任意误报率的显著更高的功率（真正的阳性率），并解释为什么不同的攻击效果不同，并最小化攻击不确定性到数据点的存在或缺失的一个比特秘密。

Nov, 2021

机器学习模型隐私成员推断攻击的基本限制

会员推断攻击可以揭示出某个特定数据点是否属于训练数据集，并潜在地暴露个人敏感信息。本文探讨了与机器学习模型上的会员推断攻击相关的基本统计限制。具体而言，我们首先推导了统治这类攻击的有效性与成功的统计量。然后，我们研究了几种情况，并提供了对这个感兴趣的统计量的上下界。这使得我们能够推导出攻击的准确性与样本数量以及学习模型的其他结构参数之间的关系，在某些情况下，这些参数可以直接根据数据集进行估计。

Oct, 2023