白盒语言模型监督微调中的主动隐私审计

Nov, 2024

白盒语言模型监督微调中的主动隐私审计

On Active Privacy Auditing in Supervised Fine-tuning for White-Box Language Models

Qian Sun, Hanpeng Wu, Xi Sheryl Zhang

TL;DR本研究针对监督微调中的隐私泄露风险开展，特别是微调数据的敏感性和可识别性引发的隐私问题。提出了一种名为Parsing的主动隐私审计框架，通过改进的白盒成员推断攻击来监测微调过程中的隐私风险，提供了有效的工具以支持语言模型的隐私保护。实验结果表明该框架在多个模型和任务中均表现出明显的隐私关切。

Abstract

The pretraining and fine-tuning approach has become the leading technique for various NLP applications. However, recent studies reveal that fine-tuning data, due to their sensitive nature, domain-specific characteristics, and identifiability, pose significant privacy concerns. To help develop more privacy-resilient fine-tuning models, we introduce a novel ac

发现论文，激发创造

语言模型差分隐私微调

本篇研究提供了更简单、更稀疏、更快速的算法来实现大规模预训练语言模型的差分隐私微调，在许多标准 NLP 任务上实现了最先进的隐私与实用性平衡。我们提出了一个元框架来解决这个问题，并在该领域中取得了最好的实用效果、隐私性、私有训练的计算和存储成本。

Oct, 2021

利用差分隐私私密微调大型语言模型

通过使用基于Edgeworth会计师的有限样本隐私保证DP框架，我们提出了一种针对LLM的DP细调框架ewtune，该框架直接降低了噪声的影响，且在自然语言理解任务上将最新的LLMs性能提高了1.1％。

Oct, 2022

大型语言模型上的用户推理攻击

研究表明，通过对用户数据进行细调的大型语言模型（LLMs）存在用户推测攻击的隐私风险，攻击者可以通过仅需少量用户样本和黑盒访问细调后的LLMs来推断用户的数据是否被用于细调，通过限制单个用户的细调样本数量可以减少攻击效果，但也会降低细调数据总量。

Oct, 2023

P-Bench: 语言模型多层隐私评估基准

我们提出了P-Bench，这是一个用于经验和直观地量化语言模型的隐私泄漏的多角度隐私评估基准，并对各种隐私保护语言模型进行公平和直观的评估。

Nov, 2023

通过自提示校准对精调大型语言模型进行实用的成员推断攻击

基于自校准概率变异的成员推断攻击（SPV-MIA）提出了一种新的对严格微调但无过拟合和隐私保护的LLMs泄露隐私的成员推断攻击方法。

Nov, 2023

PrivacyRestore: 大型语言模型中的隐私保护推断：通过隐私去除和恢复

本文提出了 PrivacyRestore 来保护 LLM 推理过程中用户输入的隐私信息，通过激活控制和隐私恢复技术实现，实验结果表明 PrivacyRestore 能在保护隐私信息的同时保持良好的性能和推理效率。

Jun, 2024

使用用户级差分隐私对大型语言模型进行微调

利用用户级差分隐私（DP）进行训练大型语言模型（LLMs）的实用和可扩展算法研究，以可证明地保护每个用户贡献的所有示例；通过实验在固定计算预算下验证结果，发现当需要较高的隐私保证或计算预算较大时，用户级抽样和用户级梯度剪切（ULS）通常能提供更好的结果。

Jul, 2024

遗忘以繁荣：利用机器遗忘技术解决预训练语言模型隐私泄露问题

本研究解决了在私人数据上微调大型语言模型时可能带来的隐私风险。我们提出了一种新颖的攻击方法——模型遗忘技术，利用这一技术提升了隐私数据泄露的可能性，并在验证中显示出显著优于基线的效果。这项研究警示用户下载未经验证的预训练模型时可能面临的风险。

Aug, 2024

通过自适应噪声分配实现差分隐私的语言模型微调

本研究解决了语言模型在微调过程中面临的隐私保护不足问题。提出的ANADP算法通过根据模型参数的重要性自适应分配加性噪声，优化了差分隐私的效果。实验结果表明，ANADP在满足隐私要求的同时，缩小了常规微调与传统差分隐私微调之间的性能差距。

Oct, 2024

白盒语言模型监督微调中的主动隐私审计

本研究针对监督微调过程中存在的敏感数据和隐私泄漏风险，提出了一种新的主动隐私审计框架“Parsing”，旨在识别和量化隐私泄漏风险。通过改进的白盒会员推断攻击方法，该框架提高了对大型语言模型（如GPT-2和Llama2）的隐私审计效果，为监督微调领域提供了可靠的隐私保护工具。

Nov, 2024