大型语言模型的语义成员推断攻击

Jun, 2024

大型语言模型的语义成员推断攻击

Semantic Membership Inference Attack against Large Language Models

Hamid Mozaffari, Virendra J. Marathe

TL;DR通过利用输入和其扰动的语义内容，我们引入了一种新的方法 —— 语义成员推断攻击（SMIA），从而提高成员推断攻击（MIAs）的性能。我们使用维基百科数据集对 Pythia 和 GPT-Neo 模型家族进行了全面评估，结果表明 SMIA 在 AUC-ROC 方面显著优于现有的 MIAs，例如，与第二好的攻击相比，SMIA 在 Pythia-12B 上实现了 67.39% 的 AUC-ROC，而第二好的攻击仅为 58.90%。

Abstract

membership inference attacks (MIAs) determine whether a specific data point was included in the training set of a target model. In this paper, we introduce the semantic membership inference attack (→

membership inference attacks semantic membership inference attack smia neural network auc-roc

发现论文，激发创造

通过自提示校准对精调大型语言模型进行实用的成员推断攻击

基于自校准概率变异的成员推断攻击（SPV-MIA）提出了一种新的对严格微调但无过拟合和隐私保护的 LLMs 泄露隐私的成员推断攻击方法。

Nov, 2023

大型语言模型是否受到成员推断攻击的影响？

成员推理攻击的大规模评估发现在多种设置中，大型语言模型的预训练数据上的成员推理攻击表现较差，主要原因是庞大数据集和较少训练迭代之间的结合，以及成员和非成员之间存在模糊的边界。我们识别出特定的设置，这些设置中语言模型易受成员推理攻击影响，并证明这种成功可以归因于分布变化，例如成员和非成员从看似相同的领域，但具有不同的时间范围。我们提供了代码和数据，形成了一个统一的基准测试套件，包括所有现有的成员推理攻击方案，以支持未来的研究工作。

Feb, 2024

使用邻居比较攻击语言模型的成员推断

本研究探讨了参考模型攻击在更现实的情况下对数据分布的脆弱性，并提出并评估了领域攻击方法，以提高模型隐私性。

May, 2023

基于采样的伪似然函数在成员推断攻击中的应用

该研究提出了一种基于采样的伪似然方法（SaMIA），通过仅使用大型语言模型生成的文本来计算伪似然，以检测数据泄漏，即使没有似然度，SaMIA 的表现与现有的基于似然度的方法相媲美。

Apr, 2024

使用对抗扰动进行的 DNN 成员推断攻击

研究了针对深度神经网络的成员推理攻击，提出了对复杂数据集 LiRA 和 EMIA 的补救方法，并提出了一种新的攻击方法 AMIA 和 E-AMIA，同时引入了一些增强指示标志及新的评估指标。

Jul, 2023

关于多重成员推断攻击和目标模型的数据点漏洞

本文通过定义新的指标来反映数据点在多重成员推断攻击下的脆弱性，从而捕捉多次攻击和不同目标模型下的脆弱数据点。作者运用可扩展性和灵活性的会员推断攻击平台 (VMIAP) 实现 54 次成员推断攻击，发现攻击模型对某些数据点情有独钟，同时发现数据点的脆弱性与攻击模型和目标模型有关。

Oct, 2022

机器学习模型隐私成员推断攻击的基本限制

会员推断攻击可以揭示出某个特定数据点是否属于训练数据集，并潜在地暴露个人敏感信息。本文探讨了与机器学习模型上的会员推断攻击相关的基本统计限制。具体而言，我们首先推导了统治这类攻击的有效性与成功的统计量。然后，我们研究了几种情况，并提供了对这个感兴趣的统计量的上下界。这使得我们能够推导出攻击的准确性与样本数量以及学习模型的其他结构参数之间的关系，在某些情况下，这些参数可以直接根据数据集进行估计。

Oct, 2023

基于概率波动的生成模型成员推断攻击

我们提出了一种概率波动评估成员推理攻击（PFAMI），通过分析给定记录周围的整体概率波动趋势来检测这些趋势，从而推断成员身份的黑盒式攻击，实验证明 PFAMI 相对于最佳基线可以提高攻击成功率（ASR）约 27.9%。

Aug, 2023

理解对泛化良好的学习模型的成员推断

通过发现训练实例可能对模型造成的独特影响，我们发现过度拟合是 Membership Inference Attack（MIA）成功的一个必要条件而不是充分条件，提出了一种新的 generalized MIA（GMIA）及其用于攻击机器学习模型中存在的脆弱示例的技术，结果显示现有的泛化技术无法有效保护这些脆弱示例。

Feb, 2018

大规模多模型实用成员推理攻击：一个试点研究

利用余弦相似度阈值和弱监督攻击方法，对多模式模型进行成员推断攻击，研究表明 CLIP 模型容易受到攻击，而弱监督攻击方法在低误报率下平均性能提高 17%，至少比基准方法有效率提高 7 倍。

Sep, 2023