基于自校准概率变异的成员推断攻击(SPV-MIA)提出了一种新的对严格微调但无过拟合和隐私保护的 LLMs 泄露隐私的成员推断攻击方法。
Nov, 2023
该研究提出了一种基于采样的伪似然方法(SaMIA),通过仅使用大型语言模型生成的文本来计算伪似然,以检测数据泄漏,即使没有似然度,SaMIA 的表现与现有的基于似然度的方法相媲美。
Apr, 2024
成员推理攻击的大规模评估发现在多种设置中,大型语言模型的预训练数据上的成员推理攻击表现较差,主要原因是庞大数据集和较少训练迭代之间的结合,以及成员和非成员之间存在模糊的边界。我们识别出特定的设置,这些设置中语言模型易受成员推理攻击影响,并证明这种成功可以归因于分布变化,例如成员和非成员从看似相同的领域,但具有不同的时间范围。我们提供了代码和数据,形成了一个统一的基准测试套件,包括所有现有的成员推理攻击方案,以支持未来的研究工作。
Feb, 2024
大语言模型在现实世界中的大量使用产生了对公司以未经许可的方式在互联网上训练模型的版权纠纷。本文提出了一种新的数据集推断方法来准确识别用于训练大语言模型的数据集,成功地区分了不同子集的 Pile 数据集的训练集和测试集,无任何错误的正例。
Jun, 2024
通过使用简单的词袋分类器,我们发现最近的后续成员推理攻击 (MIAs) 研究中使用的数据集存在显著的分布偏移,这意味着先前报道的高 MIA 性能可能主要归因于这些偏移而不是模型的记忆。为了解决这个问题,我们提出了回归不连续设计 (RDD) 方法来减轻分布偏移。在这种 RDD 设置下评估各种 MIA 方法的性能表现几乎与随机猜测相当,与先前报道的结果截然不同。总之,我们的研究结果凸显了准确衡量 LLM 记忆的挑战,以及在 (后续) 成员推理任务中需要仔细进行实验设计的必要性。
模拟结果表明,会员推理攻击的效果可以很好地通过得出的分析边界进行预测。
通过使用基于学习的困难度校准方法,我们提出了一种新的成员推理攻击(Membership Inference Attacks)方法,以显著提高真正正例率(TPR)在低假正例率(FPR)下的性能。
Jan, 2024
使用类似于似然比假设检验的成员推理攻击方法,我们发现面向医疗笔记的掩模语言模型泄漏训练数据的隐私风险非常高,表现为先前攻击的 AUC 从 0.66 提高到 0.9 级别,并且在低误差区域有显着提高:在 1%误报率的情况下,攻击效果比先前攻击提高了 51 倍。
Mar, 2022
我们提出了一种强大的成员推断攻击(RMIA),通过有效利用参考模型和参考数据的似然比检验来放大人口数据和目标模型之间的差异,与先前的方法相比,我们的算法在极低的假阳性误差率下(如 0)表现出卓越的测试功率(真阳性率)。同时,在计算约束条件下,即使只有少量参考模型(仅 1 个),我们的方法表现异常出色,与某些先前的攻击方法相比,在这种情况下接近随机猜测。我们的方法为成本效益高、实用且强大的机器学习算法隐私风险分析奠定了基础。
Dec, 2023
本文提出基于黑盒目标模型的攻击方法,称为 L-Leaks 攻击,通过学习目标模型的对数几率并让暗模型更加与目标模型相似来构建一个针对目标的暗模型,进而实现预测目标样本成员身份的目的,实验证明攻击非常有效。
May, 2022