保护机器学习模型免受对抗样本的安全隐患
本文研究了机器学习模型的隐私风险和成员推理攻击,提出了一种基于预测熵修改的推理攻击和一个新的隐私风险得分指标,同时对已有的防御机制进行了基准攻击,实验结果表明个体样本的隐私风险得分分布差异很大,同时确定源风险的主要因素与模型敏感性、综合误差和特征嵌入有关系。
Mar, 2020
介绍了一种隐私机制,用于训练机器学习模型以保证隐私,并使用敌对训练算法最小化模型的分类损失和最大的成员推断攻击,从而提高模型的鲁棒性和泛化性能,该机制在深度神经网络上的测试结果表明,可以在可接受的分类误差下显著降低成员推断攻击的风险。
Jul, 2018
本文提出了针对机器学习服务的会员推理攻击的可能性,并放宽了先前攻击假设中的关键假设,说明这些攻击的适用性广泛且代价低廉,从而比先前认为的更具严重性;提出了对抗此类攻击的第一种有效机制,并保持模型的高效性。
Jun, 2018
本文研究了基于迁移学习模型的成员推断攻击,采用了影子模型训练策略,通过实验结果展示了成员推断攻击的有效性,并揭示了机器学习模型在实践中存在的成员隐私泄露风险。
Sep, 2020
本文通过对机器学习模型泄露个人数据记录的数量进行定量研究,并聚焦于基本的成员推理攻击,利用对手方机器学习技术来训练自己的推理模型,识别目标模型在训练和未训练输入上的预测差异,我们评估了这种推理技术对各种分类模型的影响,包括敏感医院出院数据集,发现这些模型容易受到成员攻击,并探讨影响泄漏的因素并评估缓解策略。
Oct, 2016
本文提出了一种基于对抗鲁棒性的增强成员推断攻击方法,通过标签平滑调整对抗性扰动的方向,在白盒设置下对 Fashion-MNIST、CIFAR-10 和 CIFAR-100 三种数据集进行了实验,结果表明该方法的性能优于现有的基于对抗性鲁棒性的方法,且在攻击对抗性训练模型方面,更胜一筹。
May, 2022
人工智能系统在日常生活中普遍存在,在零售、制造、健康等许多领域都有应用。随着人工智能采用的增加,相关风险也被识别出来,其中包括对用于训练模型的数据的隐私风险。评估机器学习模型的隐私风险对于做出有知识决策,是否使用、部署或共享模型至关重要。对隐私风险评估的常见方法是运行一个或多个已知的攻击来评估攻击的成功率。我们提出了一个新颖的框架来运行针对分类模型的成员推理攻击。我们的框架利用集合方法,针对数据的不同子集生成许多专门的攻击模型。我们证明这种方法在经典和语言分类任务中比单个攻击模型或每个类标签的攻击模型都具有更高的准确性。
Oct, 2023
使用敌对训练和差分隐私训练的组合,本研究探讨了针对同时攻击的防御方法。通过使用成员推断攻击来基准测试 DP-Adv 技术的性能,并实证显示该方法的隐私性与非鲁棒私有模型相当。此外,该研究还强调了在动态训练范式中探索隐私保证的需求。
Jan, 2024
该论文通过对机器学习模型逐一评估,探究其在会员隐私方面存在的风险。研究表明,攻击模型的效果主要由数据驱动,受数据集的影响较大。在攻击过程中,抗攻击模型的选择和参与者的数量也是影响因素之一。最后,论文给出了相应的对策和缓解策略。
Jun, 2018