使用成员推断攻击量化掩码语言模型的隐私风险
本文首次对机器学习中的成员推理攻击及其防御措施进行了全面调查,提供了攻击和防御的分类学及其优缺点,并指出了相关领域的研究限制和未来方向,为研究社区提供了参考。
Mar, 2021
通过成员推理攻击作为审核工具,我们提出了一个综合的假设检验框架,不仅能够以一致的方式正式表达先前的工作,还可以设计新的成员推理攻击,使用参考模型来实现任意误报率的显著更高的功率(真正的阳性率),并解释为什么不同的攻击效果不同,并最小化攻击不确定性到数据点的存在或缺失的一个比特秘密。
Nov, 2021
人工智能系统在日常生活中普遍存在,在零售、制造、健康等许多领域都有应用。随着人工智能采用的增加,相关风险也被识别出来,其中包括对用于训练模型的数据的隐私风险。评估机器学习模型的隐私风险对于做出有知识决策,是否使用、部署或共享模型至关重要。对隐私风险评估的常见方法是运行一个或多个已知的攻击来评估攻击的成功率。我们提出了一个新颖的框架来运行针对分类模型的成员推理攻击。我们的框架利用集合方法,针对数据的不同子集生成许多专门的攻击模型。我们证明这种方法在经典和语言分类任务中比单个攻击模型或每个类标签的攻击模型都具有更高的准确性。
Oct, 2023
大型语言模型在自然语言处理领域取得了卓越的性能,但存在信息泄露的担忧。本研究关注总结任务,并研究了成员推断攻击:在对模型的API拥有黑盒访问权限的情况下,能否确定样本是否属于训练数据。我们利用文本相似性和模型对文档修改的抵抗力作为潜在的攻击信号,并评估它们在广泛使用的数据集上的有效性。我们的结果表明,总结模型存在泄露数据成员身份的风险,即使参考摘要不可用。此外,我们讨论了几种保护总结模型免受成员推断攻击的安全防护措施,并讨论了隐私与效用之间的固有权衡。
Oct, 2023
基于自校准概率变异的成员推断攻击(SPV-MIA)提出了一种新的对严格微调但无过拟合和隐私保护的LLMs泄露隐私的成员推断攻击方法。
Nov, 2023
自然语言处理模型在最近几年中经历了显著的提升,其上已建立了许多应用。然而,这些应用中许多需要在定制的专有数据集上对通用基础模型进行微调,这些微调数据往往含有个人或敏感信息,增加了隐私风险。本研究首次系统回顾了大型自然语言处理模型在成员推理攻击方面的脆弱性,整理了影响这种攻击脆弱性的各种因素以及不同防御策略的有效性。研究表明,某些训练方法能显著降低隐私风险,其中差分隐私和低秩适配器的组合在保护隐私方面效果最好。
Mar, 2024
该研究提出了一种基于采样的伪似然方法(SaMIA),通过仅使用大型语言模型生成的文本来计算伪似然,以检测数据泄漏,即使没有似然度,SaMIA的表现与现有的基于似然度的方法相媲美。
Apr, 2024
现代机器学习(ML)生态系统提供了大量的ML框架和代码库,可以极大地促进ML模型的开发。本研究考虑了恶意ML提供者供应模型训练代码给数据持有者的情况,该提供者无法访问训练过程,只能以黑盒查询方式访问结果模型。我们展示了一种新形式的成员推断攻击,比以往的攻击更强大,使对手能够可靠地取消识别所有训练样本,并且被攻击的模型仍然保持与未受损对照模型相当的性能。此外,我们还展示了被污染的模型可以在常见的成员隐私审核下有效伪装被放大的成员泄漏,只有对手知道的一组秘密样本才能揭示。总体而言,我们的研究不仅指出了最坏情况下的成员隐私泄漏,还揭示了现有隐私审核方法的一个常见问题,需要未来努力重新思考机器学习模型中的隐私审核实践。
Jul, 2024
本研究解决了上下文学习在适应大型语言模型(LLM)时面临的隐私攻击漏洞问题。我们提出了首个专门针对上下文学习的成员推断攻击方法,结果表明,相比现有的基于概率的攻击,我们的攻击在大多数情况下能准确判断成员状态,准确率可达95%。此外,我们还探讨了组合防御策略以增强隐私保护的可能性。
Sep, 2024
本研究解决了大规模语言模型(LLMs)在成员推断攻击中的隐私风险,现有方法依赖多次训练计算开销大的影子模型,导致评估风险的成本高昂。本文提出了一种低成本的成员推断攻击方法,利用小型分位回归模型的集成,以有效判定文档是否属于训练集。实验结果显示,该方法在计算预算仅为现有方法6%的情况下,取得了与最先进方法相当或更好的精度,并在多种模型和数据集上展现了强大的有效性。
Sep, 2024