TMI！微调的模型从其预训练数据中泄露私人信息

Jun, 2023

TMI！微调的模型从其预训练数据中泄露私人信息

TMI! Finetuned Models Leak Private Information from their Pretraining Data

John Abascal, Stanley Wu, Alina Oprea, Jonathan Ullman

TL;DR使用细调模型的特征泄漏来进行成员推断攻击，并在视觉和自然语言任务中评估其效果。

Abstract

transfer learning has become an increasingly popular technique in machine learning as a way to leverage a pretrained model trained for one task to assist with building a finetuned model for a related task. This paradigm has been especially popular for →

transfer learning privacy membership inference metaclassifier-based attack model finetuning

发现论文，激发创造

模型将明示：扩散模型的训练成员推断

利用扩散模型内在的生成先验，提出了一种用于训练成员推断的新方法，通过对图像进行连续退化和恢复的比较，判断其是否属于训练样本，并且在准确性和可理解性等方面优于现有方法。

Mar, 2024

深度学习的实际成员隐私理解

我们应用最先进的成员推理攻击方法，系统地测试了对大型图像分类模型进行微调时的实际隐私漏洞，重点在于了解使其易受成员推理攻击的数据集和样本的特性。就数据集的特性而言，我们发现数据集中每个类别的示例数量与成员推理攻击的脆弱性之间存在强烈的幂律依赖性，通过攻击的真阳率在低假阳率下衡量。对于单个样本来说，在训练结束时较大的梯度与成员推理攻击的脆弱性存在强相关性。

Feb, 2024

隐私后门：通过污染预训练模型增强成员推断

利用小型专用数据集微调大型预训练模型来生成特定应用模型是常见的做法。然而，我们揭示了一种新的漏洞：隐私后门攻击，通过该攻击，在微调受后门影响的模型时，训练数据的隐私泄露率会显著增加。我们在不同数据集和模型上进行了大量实验证明了这种攻击的广泛适用性和有效性，并通过不同微调方法和推断策略进行了多次消融研究以全面分析这个新威胁。我们的发现突出了机器学习社区的重要隐私问题，并呼吁重新评估使用开源预训练模型的安全协议。

Apr, 2024

潘多拉的白箱：开放式 LLM 中训练数据泄露的增加

本研究对开源大型语言模型的隐私攻击进行了系统研究，提出了威胁预训练和微调模型的成员推断攻击方法，并展示了近乎完美的攻击效果，强调了在进行高度敏感数据的微调和部署之前应当十分谨慎。

Feb, 2024

SoK: 降低 Fine-tuned 语言模型对成员推断攻击的脆弱性

自然语言处理模型在最近几年中经历了显著的提升，其上已建立了许多应用。然而，这些应用中许多需要在定制的专有数据集上对通用基础模型进行微调，这些微调数据往往含有个人或敏感信息，增加了隐私风险。本研究首次系统回顾了大型自然语言处理模型在成员推理攻击方面的脆弱性，整理了影响这种攻击脆弱性的各种因素以及不同防御策略的有效性。研究表明，某些训练方法能显著降低隐私风险，其中差分隐私和低秩适配器的组合在保护隐私方面效果最好。

Mar, 2024

深度学习在野外的隐私分析：针对迁移学习的成员推理攻击

本文研究了基于迁移学习模型的成员推断攻击，采用了影子模型训练策略，通过实验结果展示了成员推断攻击的有效性，并揭示了机器学习模型在实践中存在的成员隐私泄露风险。

Sep, 2020

大型语言模型上的用户推理攻击

研究表明，通过对用户数据进行细调的大型语言模型（LLMs）存在用户推测攻击的隐私风险，攻击者可以通过仅需少量用户样本和黑盒访问细调后的 LLMs 来推断用户的数据是否被用于细调，通过限制单个用户的细调样本数量可以减少攻击效果，但也会降低细调数据总量。

Oct, 2023

模型逆向鲁棒性：迁移学习是否有所帮助？

使用迁移学习为基础的防御方法可以提高模型的抵抗性，限制编码敏感信息的层数，从而降低模型逆推攻击的性能。

May, 2024

利用模型记忆进行校准的白盒成员推断：窃取的记忆

本研究通过对深度神经网络如何发生过拟合的新认识，研究了成员推断攻击，并展示了如何利用模型的内部来提供攻击者成员身份的证据，该攻击方法可校准，并可以有效地进行高精度的成员推论。同时，对于流行的成员推断攻击防御方法，发现较小的一阶差分隐私并不能防止攻击，而较大的隐私预算则使得攻击几乎具有与未受保护的模型相同的准确性。

Jun, 2019

通过自提示校准对精调大型语言模型进行实用的成员推断攻击

基于自校准概率变异的成员推断攻击（SPV-MIA）提出了一种新的对严格微调但无过拟合和隐私保护的 LLMs 泄露隐私的成员推断攻击方法。

Nov, 2023