嘈杂邻居：针对 LLMs 的高效成员推断攻击

Jun, 2024

嘈杂邻居：针对 LLMs 的高效成员推断攻击

Noisy Neighbors: Efficient membership inference attacks against LLMs

Filippo Galli, Luca Melis, Tommaso Cucinotta

TL;DR该研究论文介绍了一种高效的方法，通过在嵌入空间中添加随机噪声，在推理模式下操作目标模型，生成目标样本的 “噪声邻居”，以评估 LLMs 的隐私风险。研究结果表明，该方法与使用影子模型的效果相近，展示了它在实际隐私审计场景中的可用性。

Abstract

The potential of transformer-based llms risks being hindered by privacy concerns due to their reliance on extensive datasets, possibly including sensitive information. Regulatory measures like GDPR and CCPA call for using robust auditing tools to address potential privacy issues, with

transformer-based llms privacy concerns membership inference attacks efficient methodology privacy auditing scenarios

发现论文，激发创造

通过自提示校准对精调大型语言模型进行实用的成员推断攻击

基于自校准概率变异的成员推断攻击（SPV-MIA）提出了一种新的对严格微调但无过拟合和隐私保护的 LLMs 泄露隐私的成员推断攻击方法。

Nov, 2023

使用邻居比较攻击语言模型的成员推断

本研究探讨了参考模型攻击在更现实的情况下对数据分布的脆弱性，并提出并评估了领域攻击方法，以提高模型隐私性。

May, 2023

大型语言模型是否受到成员推断攻击的影响？

成员推理攻击的大规模评估发现在多种设置中，大型语言模型的预训练数据上的成员推理攻击表现较差，主要原因是庞大数据集和较少训练迭代之间的结合，以及成员和非成员之间存在模糊的边界。我们识别出特定的设置，这些设置中语言模型易受成员推理攻击影响，并证明这种成功可以归因于分布变化，例如成员和非成员从看似相同的领域，但具有不同的时间范围。我们提供了代码和数据，形成了一个统一的基准测试套件，包括所有现有的成员推理攻击方案，以支持未来的研究工作。

Feb, 2024

使用成员推断攻击量化掩码语言模型的隐私风险

使用类似于似然比假设检验的成员推理攻击方法，我们发现面向医疗笔记的掩模语言模型泄漏训练数据的隐私风险非常高，表现为先前攻击的 AUC 从 0.66 提高到 0.9 级别，并且在低误差区域有显着提高：在 1％误报率的情况下，攻击效果比先前攻击提高了 51 倍。

Mar, 2022

l-Leaks: 带有 Logits 的成员推断攻击

本文提出基于黑盒目标模型的攻击方法，称为 L-Leaks 攻击，通过学习目标模型的对数几率并让暗模型更加与目标模型相似来构建一个针对目标的暗模型，进而实现预测目标样本成员身份的目的，实验证明攻击非常有效。

May, 2022

机器学习中的成员推断攻击：一项调查

本文首次对机器学习中的成员推理攻击及其防御措施进行了全面调查，提供了攻击和防御的分类学及其优缺点，并指出了相关领域的研究限制和未来方向，为研究社区提供了参考。

Mar, 2021

探究数据依赖下的成员推断攻击

本文研究了在考虑统计依赖性的情况下，Differentially Private 训练算法在 Membership Inference Attack 防御中的可行性，发现在存在依赖性的情况下，DP 无法提供有效保护。作者通过对离线对攻击的实验表明，数据样本之间的依赖关系严重影响了 Membership Inference Attack 的性能表现。

Oct, 2020

基于采样的伪似然函数在成员推断攻击中的应用

该研究提出了一种基于采样的伪似然方法（SaMIA），通过仅使用大型语言模型生成的文本来计算伪似然，以检测数据泄漏，即使没有似然度，SaMIA 的表现与现有的基于似然度的方法相媲美。

Apr, 2024

关于成员推断攻击的不信任

本文探讨了使用 MI 攻击来检测敏感数据泄露的问题，结果发现 MI 攻击容易被挑战其可靠性，并提出一种新的算法，将假阳性率提高至数千倍。

Dec, 2022

利用模型记忆进行校准的白盒成员推断：窃取的记忆

本研究通过对深度神经网络如何发生过拟合的新认识，研究了成员推断攻击，并展示了如何利用模型的内部来提供攻击者成员身份的证据，该攻击方法可校准，并可以有效地进行高精度的成员推论。同时，对于流行的成员推断攻击防御方法，发现较小的一阶差分隐私并不能防止攻击，而较大的隐私预算则使得攻击几乎具有与未受保护的模型相同的准确性。

Jun, 2019