本研究讨论了对抗者攻击在训练数据中恶意注入攻击数据(即污染数据),从而提高模型信息泄漏,并成功实现了基于属性推断的攻击方法。在两个数据集上的实验中,攻击准确率在 90% 以上,污染率在 9-10% 之间。
Jan, 2021
本文针对机器学习模型遭受的隐私攻击主题,着重研究防御隐私推断攻击的多种策略,并提出了一种基于属性遗忘的新型防御机制,研究发现属性遗忘对于特定敌手极其有效,但难以泛化,作者提出使用添加高斯噪声的处理方法可能产生更优的结果。
May, 2022
本文研究了基于迁移学习模型的成员推断攻击,采用了影子模型训练策略,通过实验结果展示了成员推断攻击的有效性,并揭示了机器学习模型在实践中存在的成员隐私泄露风险。
Sep, 2020
本文提出了一种形式化且通用的财产推断攻击定义,该定义描述能够区分可能的训练分布的攻击,并展示了如何将先前的财产推断攻击和新的攻击捕获在该定义中,并为揭示潜在风险的实验提供了见解。
Jun, 2021
本文提出两种黑盒模型反演攻击方法,不需要查询学生模型,可以成功地从传统教师模型转移学习中的学生模型中恢复高度可识别的数据记录。
Mar, 2022
该研究通过提出一个正式定义的分布推断攻击概念,研究了不同分布和攻击方法之间的表现差异,揭示了通过建立的度量方法可以量化泄漏,并发现了一些攻击的非对称性。
Sep, 2021
研究表明,通过对用户数据进行细调的大型语言模型(LLMs)存在用户推测攻击的隐私风险,攻击者可以通过仅需少量用户样本和黑盒访问细调后的 LLMs 来推断用户的数据是否被用于细调,通过限制单个用户的细调样本数量可以减少攻击效果,但也会降低细调数据总量。
Oct, 2023
在这篇论文中,我们研究了预训练特征提取器应用于后续任务时的数据污染攻击,主要包括输入空间攻击和特征目标攻击两种类型,实验结果表明后者对迁移学习更具威胁性。
Feb, 2024
本文提出了一种名为 $dataset$ $inference$ 的防御机制,旨在解决目前存在的模型盗窃问题,该机制结合了统计测试和多个数据点到决策边界的距离估计来实现对原始模型数据集保护,实验证明该机制可以成功地对抗目前最先进的攻击方式,并且无需对被保护的模型进行重新训练或过度拟合。
Apr, 2021
用于训练数据的小扰动攻击机器学习模型的可用性数据中毒攻击有可能泛化到不同的学习算法和范式,并提出了可转移的中毒攻击来生成高频中毒扰动,该攻击具有显著改善的可转移性。