DEPN: 检测和编辑预训练语言模型中的隐私神经元

EMNLPOct, 2023

DEPN: 检测和编辑预训练语言模型中的隐私神经元

DEPN: Detecting and Editing Privacy Neurons in Pretrained Language Models

Xinwei Wu, Junzhuo Li, Minghui Xu, Weilong Dong, Shuangzhi Wu...

TL;DR为了有效降低预训练语言模型中的数据泄漏风险，我们提出了一个名为 DEPN 的框架来检测和编辑预训练语言模型中的隐私神经元，部分受到知识神经元和模型编辑的启发。在 DEPN 中，我们引入了一种称为隐私神经元探测器的新方法，来定位与私人信息相关的神经元，并通过将它们的激活设置为零来编辑这些检测到的隐私神经元。此外，我们还提出了一种批处理方式的隐私神经元聚合器来去除隐私信息。实验结果表明，我们的方法能够显著并有效地降低私人数据泄漏的风险，而不会损害模型的性能。此外，我们从多个角度（包括模型大小、训练时间、提示、隐私神经元分布）经验性地展示了模型记忆和隐私神经元之间的关系，从而证明了我们方法的稳健性。

Abstract

Large language models pretrained on a huge amount of data capture rich knowledge and information in the training data. The ability of data memorization and regurgitation in pretrained language models, revealed in previous studies, brings the risk of →

pretrained language models data leakage privacy neurons model editing private data leakage

发现论文，激发创造

语言模型中可学习的隐私神经元定位

我们引入了一种创新的方法来定位 LLMs 中敏感个人身份信息 (PII) 的神经元，通过对抗训练使用可学习的二进制权重掩码来定位特定的神经元，以解决 LLMs 中 PII 的记忆机制的不清楚性，并通过定位的隐私神经元的失活来减轻 PII 风险。我们的定位算法通过定量和定性实验证明了其有效性。

May, 2024

MemDPT：高效内存差分隐私语言模型

通过提出的创新训练框架 MemDPT，本文在减少大型语言模型的内存成本的同时，强调保护用户数据的隐私，通过边缘网络和反向网络设计实现了差分隐私内存高效微调方案，达到了 2 至 3 倍的内存优化，并提供了可靠的隐私保护，确保用户数据的安全和保密性。广泛的实验证明了 MemDPT 能够有效地在各种任务场景下提供差分隐私高效微调。

Jun, 2024

差分隐私语言模型受益于公共预训练

通过微调基于公共语料库的模型来实现高质量和隐私保护的语言模型，提高私有领域的模型性能，让其成为可能。

Sep, 2020

DPNAS: 带有差分隐私的深度学习神经架构搜索

本文提出 DPNAS 框架，采用神经架构搜索自动生成深度学习模型，以实现隐私保护学习，我们证明了该框架的有效性，所生成模型 DPNASNet 在隐私 / 效用权衡方面达到了最先进的表现。

Oct, 2021

REVS：通过词汇空间中的排名编辑来消除语言模型中的敏感信息

通过 REVS 方法，我们可以修改大型语言模型（LLMs）中的少量神经元，从而去除敏感信息、抵御提取攻击，并保持模型的完整性。

Jun, 2024

大语言模型时代的隐私保护：你所写即你所是

本文调查了一系列流行模型中预训练表示所编码的个人信息的程度，并展示了模型越复杂和数据越多，可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估，结果表明，隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术（如差分隐私）可能会对模型效用产生严重影响，可以使用混合或度量隐私方法来解决。

Apr, 2022

找到 NeMo: 在扩散模型中定位负责记忆的神经元

通过定位跨注意力层中的神经元，我们引入了 NeMo 方法来解决扩散模型中的个别数据样本的记忆问题，从而避免了在推理过程中复制训练数据，增加了生成输出的多样性，并减少了私密和受版权保护数据的泄露，进而实现了更负责任的扩散模型的部署。

Jun, 2024

对抗神经元剪枝净化植入后门的深度模型

通过 Adversarial Neuron Pruning (ANP) 修复易崩溃的 DNN 神经元，即可在不影响性能的情况下去除后门攻击。

Oct, 2021

自然语言处理的差分隐私表示：形式保证和隐私公平性的实证研究

提出了一种名为 DPNR 的深度学习方法，该方法使用差分隐私实现了对文本中提取的表示的隐私保护，并通过在强健训练中集成 DP 噪声表示来维护学习表示的效用。实验结果表明，DPNR 可以在不显著牺牲主要任务性能的情况下大大减少隐私泄露。

Oct, 2020

深度学习差分隐私模型发布

提出了一种基于集中差分隐私的神经网络训练方法，通过动态隐私预算分配和新的优化技术来提高模型准确性、训练效率和隐私保护能力。

Apr, 2019