揭示无法察觉的事物：通过可解释性探索白盒成员推断的视角

Jul, 2024

揭示无法察觉的事物：通过可解释性探索白盒成员推断的视角

Unveiling the Unseen: Exploring Whitebox Membership Inference through the Lens of Explainability

Chenxi Li, Abhinav Kumar, Zhen Guo, Jie Hou, Reza Tourani

TL;DR通过统计方法，本文旨在解决隐含特征对攻击效果的影响以及基于原始数据特征的攻击根本原因不足的问题，并提出了一个攻击驱动的可解释框架，通过集成目标和攻击模型，识别导致成功成员推理攻击的原始数据上最具影响力的特征。我们提出的攻击显示了与最先进的攻击技术相比高达 26％的改进。

Abstract

The increasing prominence of deep learning applications and reliance on personalized data underscore the urgent need to address privacy vulnerabilities, particularly membership inference attacks (MIAs). Despite n

deep learning applications privacy vulnerabilities membership inference attacks hidden features raw data features

发现论文，激发创造

机器学习中的成员推断攻击：一项调查

本文首次对机器学习中的成员推理攻击及其防御措施进行了全面调查，提供了攻击和防御的分类学及其优缺点，并指出了相关领域的研究限制和未来方向，为研究社区提供了参考。

Mar, 2021

机器学习模型隐私成员推断攻击的基本限制

会员推断攻击可以揭示出某个特定数据点是否属于训练数据集，并潜在地暴露个人敏感信息。本文探讨了与机器学习模型上的会员推断攻击相关的基本统计限制。具体而言，我们首先推导了统治这类攻击的有效性与成功的统计量。然后，我们研究了几种情况，并提供了对这个感兴趣的统计量的上下界。这使得我们能够推导出攻击的准确性与样本数量以及学习模型的其他结构参数之间的关系，在某些情况下，这些参数可以直接根据数据集进行估计。

Oct, 2023

解释为基础的成员推断攻击的博弈论理解

黑盒机器学习模型的透明性可以通过模型解释来提高，然而这也会被利用来进行会员推断攻击。本文以持续时间随机信号博弈框架为基础，研究了基于解释的阈值攻击，分析了对于一个主动攻击者在不断交互情景下发起会员推断攻击的因素，并提出了数学模型来证明存在一个可以用于发起攻击的最佳阈值。

Apr, 2024

利用模型记忆进行校准的白盒成员推断：窃取的记忆

本研究通过对深度神经网络如何发生过拟合的新认识，研究了成员推断攻击，并展示了如何利用模型的内部来提供攻击者成员身份的证据，该攻击方法可校准，并可以有效地进行高精度的成员推论。同时，对于流行的成员推断攻击防御方法，发现较小的一阶差分隐私并不能防止攻击，而较大的隐私预算则使得攻击几乎具有与未受保护的模型相同的准确性。

Jun, 2019

深度学习的实际成员隐私理解

我们应用最先进的成员推理攻击方法，系统地测试了对大型图像分类模型进行微调时的实际隐私漏洞，重点在于了解使其易受成员推理攻击的数据集和样本的特性。就数据集的特性而言，我们发现数据集中每个类别的示例数量与成员推理攻击的脆弱性之间存在强烈的幂律依赖性，通过攻击的真阳率在低假阳率下衡量。对于单个样本来说，在训练结束时较大的梯度与成员推理攻击的脆弱性存在强相关性。

Feb, 2024

透视成员推断攻击

该论文通过对机器学习模型逐一评估，探究其在会员隐私方面存在的风险。研究表明，攻击模型的效果主要由数据驱动，受数据集的影响较大。在攻击过程中，抗攻击模型的选择和参与者的数量也是影响因素之一。最后，论文给出了相应的对策和缓解策略。

Jun, 2018

面向扩散模型的黑盒成员推断攻击

通过黑盒成员推断攻击方法，在不需要访问模型的内部 U-net 的情况下，构建了一个 DALL-E 生成的数据集进行全面评估，实验结果优于以前的研究。

May, 2024

成员推断攻击与泛化：一种因果视角

本文通过原则性因果推理，提供量化解释和因果结构图，深入研究了成员推理攻击与泛化之间的联系，并对攻击的观测结果进行了定量解释，结果显示因果模型具有实用性。

Sep, 2022

成员推断攻击的数据和模型依赖性

该论文分析了成员推理攻击的成功因素，发现数据集和训练模型的多个属性共同影响攻击成功率，提出使用这些属性作为正则化器以保护机器学习模型免受攻击。经实验证明，该方法可将攻击准确率降低多达 25％，而不影响机器学习模型的预测效果。

Feb, 2020

机器学习模型增强攻击下的成员推断攻击

通过成员推理攻击作为审核工具，我们提出了一个综合的假设检验框架，不仅能够以一致的方式正式表达先前的工作，还可以设计新的成员推理攻击，使用参考模型来实现任意误报率的显著更高的功率（真正的阳性率），并解释为什么不同的攻击效果不同，并最小化攻击不确定性到数据点的存在或缺失的一个比特秘密。

Nov, 2021