序列到序列模型的成员推断攻击: 我的数据是否在您的机器翻译系统中?
该研究关注于机器学习模型中有关成员推断攻击的问题,并提出了一种新的会员推断技术——抽样攻击,进一步研究了两种最近的攻击模型以及针对这些攻击的防御方法,最终发现在预测输出时的输出微扰技术是一种简单易行的隐私保护方法,对预测结果的影响较小。
Sep, 2020
本文研究了基于迁移学习模型的成员推断攻击,采用了影子模型训练策略,通过实验结果展示了成员推断攻击的有效性,并揭示了机器学习模型在实践中存在的成员隐私泄露风险。
Sep, 2020
本文首次对机器学习中的成员推理攻击及其防御措施进行了全面调查,提供了攻击和防御的分类学及其优缺点,并指出了相关领域的研究限制和未来方向,为研究社区提供了参考。
Mar, 2021
使用类似于似然比假设检验的成员推理攻击方法,我们发现面向医疗笔记的掩模语言模型泄漏训练数据的隐私风险非常高,表现为先前攻击的AUC从0.66提高到0.9级别,并且在低误差区域有显着提高:在1%误报率的情况下,攻击效果比先前攻击提高了51倍。
Mar, 2022
人工智能系统在日常生活中普遍存在,在零售、制造、健康等许多领域都有应用。随着人工智能采用的增加,相关风险也被识别出来,其中包括对用于训练模型的数据的隐私风险。评估机器学习模型的隐私风险对于做出有知识决策,是否使用、部署或共享模型至关重要。对隐私风险评估的常见方法是运行一个或多个已知的攻击来评估攻击的成功率。我们提出了一个新颖的框架来运行针对分类模型的成员推理攻击。我们的框架利用集合方法,针对数据的不同子集生成许多专门的攻击模型。我们证明这种方法在经典和语言分类任务中比单个攻击模型或每个类标签的攻击模型都具有更高的准确性。
Oct, 2023
大型语言模型在自然语言处理领域取得了卓越的性能,但存在信息泄露的担忧。本研究关注总结任务,并研究了成员推断攻击:在对模型的API拥有黑盒访问权限的情况下,能否确定样本是否属于训练数据。我们利用文本相似性和模型对文档修改的抵抗力作为潜在的攻击信号,并评估它们在广泛使用的数据集上的有效性。我们的结果表明,总结模型存在泄露数据成员身份的风险,即使参考摘要不可用。此外,我们讨论了几种保护总结模型免受成员推断攻击的安全防护措施,并讨论了隐私与效用之间的固有权衡。
Oct, 2023
基于自校准概率变异的成员推断攻击(SPV-MIA)提出了一种新的对严格微调但无过拟合和隐私保护的LLMs泄露隐私的成员推断攻击方法。
Nov, 2023
大语言模型在现实世界中的大量使用产生了对公司以未经许可的方式在互联网上训练模型的版权纠纷。本文提出了一种新的数据集推断方法来准确识别用于训练大语言模型的数据集,成功地区分了不同子集的Pile数据集的训练集和测试集,无任何错误的正例。
Jun, 2024
现代机器学习(ML)生态系统提供了大量的ML框架和代码库,可以极大地促进ML模型的开发。本研究考虑了恶意ML提供者供应模型训练代码给数据持有者的情况,该提供者无法访问训练过程,只能以黑盒查询方式访问结果模型。我们展示了一种新形式的成员推断攻击,比以往的攻击更强大,使对手能够可靠地取消识别所有训练样本,并且被攻击的模型仍然保持与未受损对照模型相当的性能。此外,我们还展示了被污染的模型可以在常见的成员隐私审核下有效伪装被放大的成员泄漏,只有对手知道的一组秘密样本才能揭示。总体而言,我们的研究不仅指出了最坏情况下的成员隐私泄漏,还揭示了现有隐私审核方法的一个常见问题,需要未来努力重新思考机器学习模型中的隐私审核实践。
Jul, 2024
本研究解决了大规模语言模型(LLMs)在成员推断攻击中的隐私风险,现有方法依赖多次训练计算开销大的影子模型,导致评估风险的成本高昂。本文提出了一种低成本的成员推断攻击方法,利用小型分位回归模型的集成,以有效判定文档是否属于训练集。实验结果显示,该方法在计算预算仅为现有方法6%的情况下,取得了与最先进方法相当或更好的精度,并在多种模型和数据集上展现了强大的有效性。
Sep, 2024