l-Leaks: 带有 Logits 的成员推断攻击
本文提出了针对机器学习服务的会员推理攻击的可能性,并放宽了先前攻击假设中的关键假设,说明这些攻击的适用性广泛且代价低廉,从而比先前认为的更具严重性;提出了对抗此类攻击的第一种有效机制,并保持模型的高效性。
Jun, 2018
本文提出了基于决策的成员推理攻击方法,证明了仅利用标签信息的模型也容易受到成员泄漏攻击,并且开发了两种决策攻击类型:转移攻击和边界攻击。最后,我们评估多种防御机制,并展示了我们提出的两种攻击方式可以绕过大部分防御。
Jul, 2020
通过成员推理攻击作为审核工具,我们提出了一个综合的假设检验框架,不仅能够以一致的方式正式表达先前的工作,还可以设计新的成员推理攻击,使用参考模型来实现任意误报率的显著更高的功率(真正的阳性率),并解释为什么不同的攻击效果不同,并最小化攻击不确定性到数据点的存在或缺失的一个比特秘密。
Nov, 2021
本文首次对机器学习中的成员推理攻击及其防御措施进行了全面调查,提供了攻击和防御的分类学及其优缺点,并指出了相关领域的研究限制和未来方向,为研究社区提供了参考。
Mar, 2021
本文通过对机器学习模型泄露个人数据记录的数量进行定量研究,并聚焦于基本的成员推理攻击,利用对手方机器学习技术来训练自己的推理模型,识别目标模型在训练和未训练输入上的预测差异,我们评估了这种推理技术对各种分类模型的影响,包括敏感医院出院数据集,发现这些模型容易受到成员攻击,并探讨影响泄漏的因素并评估缓解策略。
Oct, 2016
该论文分析了成员推理攻击的成功因素,发现数据集和训练模型的多个属性共同影响攻击成功率,提出使用这些属性作为正则化器以保护机器学习模型免受攻击。经实验证明,该方法可将攻击准确率降低多达 25%,而不影响机器学习模型的预测效果。
Feb, 2020
使用类似于似然比假设检验的成员推理攻击方法,我们发现面向医疗笔记的掩模语言模型泄漏训练数据的隐私风险非常高,表现为先前攻击的 AUC 从 0.66 提高到 0.9 级别,并且在低误差区域有显着提高:在 1%误报率的情况下,攻击效果比先前攻击提高了 51 倍。
Mar, 2022
本研究通过对深度神经网络如何发生过拟合的新认识,研究了成员推断攻击,并展示了如何利用模型的内部来提供攻击者成员身份的证据,该攻击方法可校准,并可以有效地进行高精度的成员推论。同时,对于流行的成员推断攻击防御方法,发现较小的一阶差分隐私并不能防止攻击,而较大的隐私预算则使得攻击几乎具有与未受保护的模型相同的准确性。
Jun, 2019
现代机器学习(ML)生态系统提供了大量的 ML 框架和代码库,可以极大地促进 ML 模型的开发。本研究考虑了恶意 ML 提供者供应模型训练代码给数据持有者的情况,该提供者无法访问训练过程,只能以黑盒查询方式访问结果模型。我们展示了一种新形式的成员推断攻击,比以往的攻击更强大,使对手能够可靠地取消识别所有训练样本,并且被攻击的模型仍然保持与未受损对照模型相当的性能。此外,我们还展示了被污染的模型可以在常见的成员隐私审核下有效伪装被放大的成员泄漏,只有对手知道的一组秘密样本才能揭示。总体而言,我们的研究不仅指出了最坏情况下的成员隐私泄漏,还揭示了现有隐私审核方法的一个常见问题,需要未来努力重新思考机器学习模型中的隐私审核实践。
Jul, 2024
该论文通过对机器学习模型逐一评估,探究其在会员隐私方面存在的风险。研究表明,攻击模型的效果主要由数据驱动,受数据集的影响较大。在攻击过程中,抗攻击模型的选择和参与者的数量也是影响因素之一。最后,论文给出了相应的对策和缓解策略。
Jun, 2018