基于采样的伪似然函数在成员推断攻击中的应用
基于自校准概率变异的成员推断攻击(SPV-MIA)提出了一种新的对严格微调但无过拟合和隐私保护的 LLMs 泄露隐私的成员推断攻击方法。
Nov, 2023
大语言模型在现实世界中的大量使用产生了对公司以未经许可的方式在互联网上训练模型的版权纠纷。本文提出了一种新的数据集推断方法来准确识别用于训练大语言模型的数据集,成功地区分了不同子集的 Pile 数据集的训练集和测试集,无任何错误的正例。
Jun, 2024
成员推理攻击的大规模评估发现在多种设置中,大型语言模型的预训练数据上的成员推理攻击表现较差,主要原因是庞大数据集和较少训练迭代之间的结合,以及成员和非成员之间存在模糊的边界。我们识别出特定的设置,这些设置中语言模型易受成员推理攻击影响,并证明这种成功可以归因于分布变化,例如成员和非成员从看似相同的领域,但具有不同的时间范围。我们提供了代码和数据,形成了一个统一的基准测试套件,包括所有现有的成员推理攻击方案,以支持未来的研究工作。
Feb, 2024
通过利用输入和其扰动的语义内容,我们引入了一种新的方法 —— 语义成员推断攻击(SMIA),从而提高成员推断攻击(MIAs)的性能。我们使用维基百科数据集对 Pythia 和 GPT-Neo 模型家族进行了全面评估,结果表明 SMIA 在 AUC-ROC 方面显著优于现有的 MIAs,例如,与第二好的攻击相比,SMIA 在 Pythia-12B 上实现了 67.39% 的 AUC-ROC,而第二好的攻击仅为 58.90%。
Jun, 2024
通过使用简单的词袋分类器,我们发现最近的后续成员推理攻击 (MIAs) 研究中使用的数据集存在显著的分布偏移,这意味着先前报道的高 MIA 性能可能主要归因于这些偏移而不是模型的记忆。为了解决这个问题,我们提出了回归不连续设计 (RDD) 方法来减轻分布偏移。在这种 RDD 设置下评估各种 MIA 方法的性能表现几乎与随机猜测相当,与先前报道的结果截然不同。总之,我们的研究结果凸显了准确衡量 LLM 记忆的挑战,以及在 (后续) 成员推理任务中需要仔细进行实验设计的必要性。
Jun, 2024
该研究论文介绍了一种高效的方法,通过在嵌入空间中添加随机噪声,在推理模式下操作目标模型,生成目标样本的 “噪声邻居”,以评估 LLMs 的隐私风险。研究结果表明,该方法与使用影子模型的效果相近,展示了它在实际隐私审计场景中的可用性。
Jun, 2024
我们提出了一种概率波动评估成员推理攻击(PFAMI),通过分析给定记录周围的整体概率波动趋势来检测这些趋势,从而推断成员身份的黑盒式攻击,实验证明 PFAMI 相对于最佳基线可以提高攻击成功率(ASR)约 27.9%。
Aug, 2023
本研究对开源大型语言模型的隐私攻击进行了系统研究,提出了威胁预训练和微调模型的成员推断攻击方法,并展示了近乎完美的攻击效果,强调了在进行高度敏感数据的微调和部署之前应当十分谨慎。
Feb, 2024