使用邻居比较攻击语言模型的成员推断
基于自校准概率变异的成员推断攻击(SPV-MIA)提出了一种新的对严格微调但无过拟合和隐私保护的 LLMs 泄露隐私的成员推断攻击方法。
Nov, 2023
本文首次对机器学习中的成员推理攻击及其防御措施进行了全面调查,提供了攻击和防御的分类学及其优缺点,并指出了相关领域的研究限制和未来方向,为研究社区提供了参考。
Mar, 2021
利用余弦相似度阈值和弱监督攻击方法,对多模式模型进行成员推断攻击,研究表明 CLIP 模型容易受到攻击,而弱监督攻击方法在低误报率下平均性能提高 17%,至少比基准方法有效率提高 7 倍。
Sep, 2023
成员推理攻击的大规模评估发现在多种设置中,大型语言模型的预训练数据上的成员推理攻击表现较差,主要原因是庞大数据集和较少训练迭代之间的结合,以及成员和非成员之间存在模糊的边界。我们识别出特定的设置,这些设置中语言模型易受成员推理攻击影响,并证明这种成功可以归因于分布变化,例如成员和非成员从看似相同的领域,但具有不同的时间范围。我们提供了代码和数据,形成了一个统一的基准测试套件,包括所有现有的成员推理攻击方案,以支持未来的研究工作。
Feb, 2024
通过利用输入和其扰动的语义内容,我们引入了一种新的方法 —— 语义成员推断攻击(SMIA),从而提高成员推断攻击(MIAs)的性能。我们使用维基百科数据集对 Pythia 和 GPT-Neo 模型家族进行了全面评估,结果表明 SMIA 在 AUC-ROC 方面显著优于现有的 MIAs,例如,与第二好的攻击相比,SMIA 在 Pythia-12B 上实现了 67.39% 的 AUC-ROC,而第二好的攻击仅为 58.90%。
Jun, 2024
会员推断攻击可以揭示出某个特定数据点是否属于训练数据集,并潜在地暴露个人敏感信息。本文探讨了与机器学习模型上的会员推断攻击相关的基本统计限制。具体而言,我们首先推导了统治这类攻击的有效性与成功的统计量。然后,我们研究了几种情况,并提供了对这个感兴趣的统计量的上下界。这使得我们能够推导出攻击的准确性与样本数量以及学习模型的其他结构参数之间的关系,在某些情况下,这些参数可以直接根据数据集进行估计。
Oct, 2023
本文通过定义新的指标来反映数据点在多重成员推断攻击下的脆弱性,从而捕捉多次攻击和不同目标模型下的脆弱数据点。作者运用可扩展性和灵活性的会员推断攻击平台 (VMIAP) 实现 54 次成员推断攻击,发现攻击模型对某些数据点情有独钟,同时发现数据点的脆弱性与攻击模型和目标模型有关。
Oct, 2022
通过成员推理攻击作为审核工具,我们提出了一个综合的假设检验框架,不仅能够以一致的方式正式表达先前的工作,还可以设计新的成员推理攻击,使用参考模型来实现任意误报率的显著更高的功率(真正的阳性率),并解释为什么不同的攻击效果不同,并最小化攻击不确定性到数据点的存在或缺失的一个比特秘密。
Nov, 2021
通过发现训练实例可能对模型造成的独特影响,我们发现过度拟合是 Membership Inference Attack(MIA)成功的一个必要条件而不是充分条件,提出了一种新的 generalized MIA(GMIA)及其用于攻击机器学习模型中存在的脆弱示例的技术,结果显示现有的泛化技术无法有效保护这些脆弱示例。
Feb, 2018