解释为基础的成员推断攻击的博弈论理解

Apr, 2024

解释为基础的成员推断攻击的博弈论理解

Towards a Game-theoretic Understanding of Explanation-based Membership Inference Attacks

Kavita Kumari, Murtuza Jadliwala, Sumit Kumar Jha, Anindya Maiti

TL;DR黑盒机器学习模型的透明性可以通过模型解释来提高，然而这也会被利用来进行会员推断攻击。本文以持续时间随机信号博弈框架为基础，研究了基于解释的阈值攻击，分析了对于一个主动攻击者在不断交互情景下发起会员推断攻击的因素，并提出了数学模型来证明存在一个可以用于发起攻击的最佳阈值。

Abstract

model explanations improve the transparency of black-box machine learning (ML) models and their decisions; however, they can also be exploited to carry out privacy threats such as →

model explanations black-box machine learning membership inference attacks explanation-based threshold attacks stochastic signaling game framework

发现论文，激发创造

不确定性、校准和成员推断攻击：信息论视角

模拟结果表明，会员推理攻击的效果可以很好地通过得出的分析边界进行预测。

Feb, 2024

成员推断攻击与泛化：一种因果视角

本文通过原则性因果推理，提供量化解释和因果结构图，深入研究了成员推理攻击与泛化之间的联系，并对攻击的观测结果进行了定量解释，结果显示因果模型具有实用性。

Sep, 2022

揭示无法察觉的事物：通过可解释性探索白盒成员推断的视角

通过统计方法，本文旨在解决隐含特征对攻击效果的影响以及基于原始数据特征的攻击根本原因不足的问题，并提出了一个攻击驱动的可解释框架，通过集成目标和攻击模型，识别导致成功成员推理攻击的原始数据上最具影响力的特征。我们提出的攻击显示了与最先进的攻击技术相比高达 26％的改进。

Jul, 2024

机器学习模型隐私成员推断攻击的基本限制

会员推断攻击可以揭示出某个特定数据点是否属于训练数据集，并潜在地暴露个人敏感信息。本文探讨了与机器学习模型上的会员推断攻击相关的基本统计限制。具体而言，我们首先推导了统治这类攻击的有效性与成功的统计量。然后，我们研究了几种情况，并提供了对这个感兴趣的统计量的上下界。这使得我们能够推导出攻击的准确性与样本数量以及学习模型的其他结构参数之间的关系，在某些情况下，这些参数可以直接根据数据集进行估计。

Oct, 2023

理解对泛化良好的学习模型的成员推断

通过发现训练实例可能对模型造成的独特影响，我们发现过度拟合是 Membership Inference Attack（MIA）成功的一个必要条件而不是充分条件，提出了一种新的 generalized MIA（GMIA）及其用于攻击机器学习模型中存在的脆弱示例的技术，结果显示现有的泛化技术无法有效保护这些脆弱示例。

Feb, 2018

机器学习模型增强攻击下的成员推断攻击

通过成员推理攻击作为审核工具，我们提出了一个综合的假设检验框架，不仅能够以一致的方式正式表达先前的工作，还可以设计新的成员推理攻击，使用参考模型来实现任意误报率的显著更高的功率（真正的阳性率），并解释为什么不同的攻击效果不同，并最小化攻击不确定性到数据点的存在或缺失的一个比特秘密。

Nov, 2021

成员推断攻击的数据和模型依赖性

该论文分析了成员推理攻击的成功因素，发现数据集和训练模型的多个属性共同影响攻击成功率，提出使用这些属性作为正则化器以保护机器学习模型免受攻击。经实验证明，该方法可将攻击准确率降低多达 25％，而不影响机器学习模型的预测效果。

Feb, 2020

机器学习中的成员推断攻击：一项调查

本文首次对机器学习中的成员推理攻击及其防御措施进行了全面调查，提供了攻击和防御的分类学及其优缺点，并指出了相关领域的研究限制和未来方向，为研究社区提供了参考。

Mar, 2021

探究数据依赖下的成员推断攻击

本文研究了在考虑统计依赖性的情况下，Differentially Private 训练算法在 Membership Inference Attack 防御中的可行性，发现在存在依赖性的情况下，DP 无法提供有效保护。作者通过对离线对攻击的实验表明，数据样本之间的依赖关系严重影响了 Membership Inference Attack 的性能表现。

Oct, 2020

利用模型记忆进行校准的白盒成员推断：窃取的记忆

本研究通过对深度神经网络如何发生过拟合的新认识，研究了成员推断攻击，并展示了如何利用模型的内部来提供攻击者成员身份的证据，该攻击方法可校准，并可以有效地进行高精度的成员推论。同时，对于流行的成员推断攻击防御方法，发现较小的一阶差分隐私并不能防止攻击，而较大的隐私预算则使得攻击几乎具有与未受保护的模型相同的准确性。

Jun, 2019