遗忘以繁荣：利用机器遗忘技术解决预训练语言模型隐私泄露问题

Aug, 2024

遗忘以繁荣：利用机器遗忘技术解决预训练语言模型隐私泄露问题

Forget to Flourish: Leveraging Machine-Unlearning on Pretrained Language Models for Privacy Leakage

Md Rafi Ur Rashid, Jing Liu, Toshiaki Koike-Akino, Shagufta Mehnaz, Ye Wang

TL;DR本研究解决了在私人数据上微调大型语言模型时可能带来的隐私风险。我们提出了一种新颖的攻击方法——模型遗忘技术，利用这一技术提升了隐私数据泄露的可能性，并在验证中显示出显著优于基线的效果。这项研究警示用户下载未经验证的预训练模型时可能面临的风险。

Abstract

Fine-tuning large language models on private data for downstream applications poses significant privacy risks in potentially exposing sensitive information. Several popular community platforms now offer convenient distribution of a large variety of pre-trained models, allowing anyone t

发现论文，激发创造

难以忘怀：基于认证机器遗忘的毒化攻击

本文研究用户信息的删除和机器去学习概念，阐述了目前保证用户隐私的方法以及可能出现的潜在攻击方式，其中特别探讨了有意设计的训练数据能触发完全重新训练的中毒攻击。

Sep, 2021

使用成员推断攻击量化掩码语言模型的隐私风险

使用类似于似然比假设检验的成员推理攻击方法，我们发现面向医疗笔记的掩模语言模型泄漏训练数据的隐私风险非常高，表现为先前攻击的AUC从0.66提高到0.9级别，并且在低误差区域有显着提高：在1％误报率的情况下，攻击效果比先前攻击提高了51倍。

Mar, 2022

语言模型中知识退化以减少隐私风险

本研究提出知识遗忘（knowledge unlearning）作为一种减少预训练语言模型（pretrained language models）隐私风险的方法，通过对目标标记序列进行梯度上升来遗忘它们，并发现顺序遗忘优于尝试一次性遗忘所有数据，对于特定领域的数据，知识遗忘具有更强的实证隐私保证，同时更加高效和鲁棒。

Oct, 2022

大型语言模型上的用户推理攻击

研究表明，通过对用户数据进行细调的大型语言模型（LLMs）存在用户推测攻击的隐私风险，攻击者可以通过仅需少量用户样本和黑盒访问细调后的LLMs来推断用户的数据是否被用于细调，通过限制单个用户的细调样本数量可以减少攻击效果，但也会降低细调数据总量。

Oct, 2023

通过细粒度模型参数扰动进行机器反学习

机器遗忘方法针对用户隐私保护目标有重要作用，但会带来大量计算成本。我们提出了细粒度 Top-K 和 Random-k 参数扰动的不精确机器遗忘策略，以在保持可计算性开销的同时满足隐私需求。我们还引入了评估机器遗忘效果和模型泛化能力的新指标——遗忘率和记忆保留率。通过实施这些创新技术和指标，我们在不显著牺牲模型性能的前提下实现了高效的隐私保护，并提供了一种评估遗忘程度的新方法。

Jan, 2024

隐私后门：通过污染预训练模型增强成员推断

利用小型专用数据集微调大型预训练模型来生成特定应用模型是常见的做法。然而，我们揭示了一种新的漏洞：隐私后门攻击，通过该攻击，在微调受后门影响的模型时，训练数据的隐私泄露率会显著增加。我们在不同数据集和模型上进行了大量实验证明了这种攻击的广泛适用性和有效性，并通过不同微调方法和推断策略进行了多次消融研究以全面分析这个新威胁。我们的发现突出了机器学习社区的重要隐私问题，并呼吁重新评估使用开源预训练模型的安全协议。

Apr, 2024

通过对语言模型中的序列遗忘进行近似优化参数保护隐私

我们提出了一种名为“POP”的新型遗忘方法，通过对参数应用最佳梯度更新，从预训练的语言模型中有效地遗忘目标令牌序列，实现隐私保护，具有出色的遗忘后保留性能，优于现有技术水平。

Jun, 2024

从仁慈到恶意：机器遗忘中善意数据的威胁

通过无差别攻击数据 poising 在机器取消学习中腐蚀模型准确度的弱点，本研究强调了对于机器取消学习中的“数据污染”问题的进一步研究的必要性。

Jul, 2024

白盒语言模型监督微调中的主动隐私审计

本研究针对监督微调过程中存在的敏感数据和隐私泄漏风险，提出了一种新的主动隐私审计框架“Parsing”，旨在识别和量化隐私泄漏风险。通过改进的白盒会员推断攻击方法，该框架提高了对大型语言模型（如GPT-2和Llama2）的隐私审计效果，为监督微调领域提供了可靠的隐私保护工具。

Nov, 2024

白盒语言模型监督微调中的主动隐私审计

本研究针对监督微调中的隐私泄露风险开展，特别是微调数据的敏感性和可识别性引发的隐私问题。提出了一种名为Parsing的主动隐私审计框架，通过改进的白盒成员推断攻击来监测微调过程中的隐私风险，提供了有效的工具以支持语言模型的隐私保护。实验结果表明该框架在多个模型和任务中均表现出明显的隐私关切。

Nov, 2024