基础模型盲目基准优于基金会模型的成员推断攻击

Jun, 2024

基础模型盲目基准优于基金会模型的成员推断攻击

Blind Baselines Beat Membership Inference Attacks for Foundation Models

Debeshee Das, Jie Zhang, Florian Tramèr

TL;DR成员推理攻击通过确定数据样本是否用于训练机器学习模型，可以检测版权训练材料，衡量测试集的污染程度或审计机器遗忘。然而，对于基于未知网络数据训练的基础模型的成员推理攻击的评估存在缺陷，因为它们从不同的分布中对成员和非成员进行采样。对于 8 个已发布的成员推理评估数据集，我们显示盲攻击 - 区分成员和非成员分布而不查看任何训练模型 - 胜过最先进的成员推理攻击。因此，现有的评估对于基础模型的训练数据的成员泄漏没有任何作用。

Abstract

Membership inference (MI) attacks try to determine if a data sample was used to train a machine learning model. For foundation models trained on unknown Web data, mi attacks can be used to detect →

membership inference attacks foundation models mi attacks trained machine learning model copyrighted training materials

发现论文，激发创造

基于差分比较的实用盲成员推理攻击

该文提出了一种新的成员推断 (Membership Inference) 攻击方法 BlindMI，该方法通过差分比较探测目标模型并提取成员语义，并且在某些数据集上相对于现有的成员推断攻击算法能够提高 F1-score 约 20%。

Jan, 2021

机器学习模型隐私成员推断攻击的基本限制

会员推断攻击可以揭示出某个特定数据点是否属于训练数据集，并潜在地暴露个人敏感信息。本文探讨了与机器学习模型上的会员推断攻击相关的基本统计限制。具体而言，我们首先推导了统治这类攻击的有效性与成功的统计量。然后，我们研究了几种情况，并提供了对这个感兴趣的统计量的上下界。这使得我们能够推导出攻击的准确性与样本数量以及学习模型的其他结构参数之间的关系，在某些情况下，这些参数可以直接根据数据集进行估计。

Oct, 2023

隶属推断攻击的难度

该论文研究深度学习中的成员推理攻击，指出现有攻击方法的报告中存在高误报率 (FAR) 和针对误分样本的较弱识别能力，并探索了距离决策边界和梯度范数等新特征，证明其对误分类样本分类能力普遍一般，最后通过多项实验证明了现有的 MI 攻击较难同时实现高准确率和低 FAR。

May, 2020

关于成员推断攻击的不信任

本文探讨了使用 MI 攻击来检测敏感数据泄露的问题，结果发现 MI 攻击容易被挑战其可靠性，并提出一种新的算法，将假阳性率提高至数千倍。

Dec, 2022

机器学习中的成员推断攻击：一项调查

本文首次对机器学习中的成员推理攻击及其防御措施进行了全面调查，提供了攻击和防御的分类学及其优缺点，并指出了相关领域的研究限制和未来方向，为研究社区提供了参考。

Mar, 2021

机器学习模型增强攻击下的成员推断攻击

通过成员推理攻击作为审核工具，我们提出了一个综合的假设检验框架，不仅能够以一致的方式正式表达先前的工作，还可以设计新的成员推理攻击，使用参考模型来实现任意误报率的显著更高的功率（真正的阳性率），并解释为什么不同的攻击效果不同，并最小化攻击不确定性到数据点的存在或缺失的一个比特秘密。

Nov, 2021

利用模型记忆进行校准的白盒成员推断：窃取的记忆

本研究通过对深度神经网络如何发生过拟合的新认识，研究了成员推断攻击，并展示了如何利用模型的内部来提供攻击者成员身份的证据，该攻击方法可校准，并可以有效地进行高精度的成员推论。同时，对于流行的成员推断攻击防御方法，发现较小的一阶差分隐私并不能防止攻击，而较大的隐私预算则使得攻击几乎具有与未受保护的模型相同的准确性。

Jun, 2019

使用邻居比较攻击语言模型的成员推断

本研究探讨了参考模型攻击在更现实的情况下对数据分布的脆弱性，并提出并评估了领域攻击方法，以提高模型隐私性。

May, 2023

成员推断攻击与泛化：一种因果视角

本文通过原则性因果推理，提供量化解释和因果结构图，深入研究了成员推理攻击与泛化之间的联系，并对攻击的观测结果进行了定量解释，结果显示因果模型具有实用性。

Sep, 2022

针对机器学习模型的成员推断攻击

本文通过对机器学习模型泄露个人数据记录的数量进行定量研究，并聚焦于基本的成员推理攻击，利用对手方机器学习技术来训练自己的推理模型，识别目标模型在训练和未训练输入上的预测差异，我们评估了这种推理技术对各种分类模型的影响，包括敏感医院出院数据集，发现这些模型容易受到成员攻击，并探讨影响泄漏的因素并评估缓解策略。

Oct, 2016