利用迁移学习进行属性推断处理

CVPRMar, 2023

Manipulating Transfer Learning for Property Inference

Yulong Tian, Fnu Suya, Anshuman Suri, Fengyuan Xu, David Evans

TL;DR研究了在迁移学习过程中，有控制权的敌手如何在受害者微调的下游模型上进行属性推断攻击，并演示了一系列攻击，通过操纵上游模型生成中间特征，能够轻松区分在下游模型中是否存在目标属性。

Abstract

transfer learning is a popular method for tuning pretrained (upstream) models for different downstream tasks using limited data and computational resources. We study how an adversary with control over an upstream model<

transfer learning property inference attacks upstream model downstream model manipulation

发现论文，激发创造

来自攻击的属性推断

本研究讨论了对抗者攻击在训练数据中恶意注入攻击数据（即污染数据），从而提高模型信息泄漏，并成功实现了基于属性推断的攻击方法。在两个数据集上的实验中，攻击准确率在 90% 以上，污染率在 9-10% 之间。

Jan, 2021

反向推断攻击防御之失败教训

本文针对机器学习模型遭受的隐私攻击主题，着重研究防御隐私推断攻击的多种策略，并提出了一种基于属性遗忘的新型防御机制，研究发现属性遗忘对于特定敌手极其有效，但难以泛化，作者提出使用添加高斯噪声的处理方法可能产生更优的结果。

May, 2022

深度学习在野外的隐私分析：针对迁移学习的成员推理攻击

本文研究了基于迁移学习模型的成员推断攻击，采用了影子模型训练策略，通过实验结果展示了成员推断攻击的有效性，并揭示了机器学习模型在实践中存在的成员隐私泄露风险。

Sep, 2020

形式化分布推断风险

本文提出了一种形式化且通用的财产推断攻击定义，该定义描述能够区分可能的训练分布的攻击，并展示了如何将先前的财产推断攻击和新的攻击捕获在该定义中，并为揭示潜在风险的实验提供了见解。

Jun, 2021

针对迁移学习的模型倒置攻击：无需访问模型即可实现模型倒置

本文提出两种黑盒模型反演攻击方法，不需要查询学生模型，可以成功地从传统教师模型转移学习中的学生模型中恢复高度可识别的数据记录。

Mar, 2022

形式化与估算分布推断风险

该研究通过提出一个正式定义的分布推断攻击概念，研究了不同分布和攻击方法之间的表现差异，揭示了通过建立的度量方法可以量化泄漏，并发现了一些攻击的非对称性。

Sep, 2021

大型语言模型上的用户推理攻击

研究表明，通过对用户数据进行细调的大型语言模型（LLMs）存在用户推测攻击的隐私风险，攻击者可以通过仅需少量用户样本和黑盒访问细调后的 LLMs 来推断用户的数据是否被用于细调，通过限制单个用户的细调样本数量可以减少攻击效果，但也会降低细调数据总量。

Oct, 2023

预训练特征提取器的不可区分数据毒化攻击

在这篇论文中，我们研究了预训练特征提取器应用于后续任务时的数据污染攻击，主要包括输入空间攻击和特征目标攻击两种类型，实验结果表明后者对迁移学习更具威胁性。

Feb, 2024

机器学习中的数据集推断：所有权解析

本文提出了一种名为 $dataset$ $inference$ 的防御机制，旨在解决目前存在的模型盗窃问题，该机制结合了统计测试和多个数据点到决策边界的距离估计来实现对原始模型数据集保护，实验证明该机制可以成功地对抗目前最先进的攻击方式，并且无需对被保护的模型进行重新训练或过度拟合。

Apr, 2021

可转移的可用性毒化攻击

用于训练数据的小扰动攻击机器学习模型的可用性数据中毒攻击有可能泛化到不同的学习算法和范式，并提出了可转移的中毒攻击来生成高频中毒扰动，该攻击具有显著改善的可转移性。

Oct, 2023