利用模型记忆进行校准的白盒成员推断：窃取的记忆

Jun, 2019

利用模型记忆进行校准的白盒成员推断：窃取的记忆

Stolen Memories: Leveraging Model Memorization for Calibrated White-Box Membership Inference

Klas Leino, Matt Fredrikson

TL;DR本研究通过对深度神经网络如何发生过拟合的新认识，研究了成员推断攻击，并展示了如何利用模型的内部来提供攻击者成员身份的证据，该攻击方法可校准，并可以有效地进行高精度的成员推论。同时，对于流行的成员推断攻击防御方法，发现较小的一阶差分隐私并不能防止攻击，而较大的隐私预算则使得攻击几乎具有与未受保护的模型相同的准确性。

Abstract

Membership inference (MI) attacks exploit the fact that machine learning algorithms sometimes leak information about their training data through the learned model. In this work, we study membership inference in the white-box setting in order to exploit the internals of a model, which have not been effectively utilized by previous work. Leveraging new insight

membership inference attacks white-box setting deep neural networks features confident positive inferences

发现论文，激发创造

机器学习模型增强攻击下的成员推断攻击

通过成员推理攻击作为审核工具，我们提出了一个综合的假设检验框架，不仅能够以一致的方式正式表达先前的工作，还可以设计新的成员推理攻击，使用参考模型来实现任意误报率的显著更高的功率（真正的阳性率），并解释为什么不同的攻击效果不同，并最小化攻击不确定性到数据点的存在或缺失的一个比特秘密。

Nov, 2021

透视成员推断攻击

该论文通过对机器学习模型逐一评估，探究其在会员隐私方面存在的风险。研究表明，攻击模型的效果主要由数据驱动，受数据集的影响较大。在攻击过程中，抗攻击模型的选择和参与者的数量也是影响因素之一。最后，论文给出了相应的对策和缓解策略。

Jun, 2018

针对机器学习模型的成员推断攻击

本文通过对机器学习模型泄露个人数据记录的数量进行定量研究，并聚焦于基本的成员推理攻击，利用对手方机器学习技术来训练自己的推理模型，识别目标模型在训练和未训练输入上的预测差异，我们评估了这种推理技术对各种分类模型的影响，包括敏感医院出院数据集，发现这些模型容易受到成员攻击，并探讨影响泄漏的因素并评估缓解策略。

Oct, 2016

参数是否透露了比损失函数更多的关于成员推断的信息？

成员推断攻击、披露审核、黑盒访问、白盒访问、成员隐私审核的研究。

Jun, 2024

关于成员推断攻击的不信任

本文探讨了使用 MI 攻击来检测敏感数据泄露的问题，结果发现 MI 攻击容易被挑战其可靠性，并提出一种新的算法，将假阳性率提高至数千倍。

Dec, 2022

通过自提示校准对精调大型语言模型进行实用的成员推断攻击

基于自校准概率变异的成员推断攻击（SPV-MIA）提出了一种新的对严格微调但无过拟合和隐私保护的 LLMs 泄露隐私的成员推断攻击方法。

Nov, 2023

l-Leaks: 带有 Logits 的成员推断攻击

本文提出基于黑盒目标模型的攻击方法，称为 L-Leaks 攻击，通过学习目标模型的对数几率并让暗模型更加与目标模型相似来构建一个针对目标的暗模型，进而实现预测目标样本成员身份的目的，实验证明攻击非常有效。