大语言模型时代的隐私保护：你所写即你所是

Apr, 2022

大语言模型时代的隐私保护：你所写即你所是

You Are What You Write: Preserving Privacy in the Era of Large Language Models

Richard Plant, Valerio Giuffrida, Dimitra Gkatzia

TL;DR本文调查了一系列流行模型中预训练表示所编码的个人信息的程度，并展示了模型越复杂和数据越多，可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估，结果表明，隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术（如差分隐私）可能会对模型效用产生严重影响，可以使用混合或度量隐私方法来解决。

Abstract

Large scale adoption of large language models has introduced a new era of convenient knowledge transfer for a slew of natural language processing tasks. However, these models also run the risk of undermining user trust by exposing unwanted information about the data subjects, which may

large language models data privacy privacy-preserving algorithms sentiment analysis differential privacy

发现论文，激发创造

差分隐私语言模型受益于公共预训练

通过微调基于公共语料库的模型来实现高质量和隐私保护的语言模型，提高私有领域的模型性能，让其成为可能。

Sep, 2020

语言模型维护隐私的含义是什么？

本文讨论保护自然语言隐私的技术是否足够广泛，提出现有数据保护方法不能为语言模型提供通用且有意义的隐私保护，因此应基于明确为公共使用的文本数据对语言模型进行训练。

Feb, 2022

隐私保护模型用于法律自然语言处理

本文阐述了利用不同隐私保护训练配置扩大自监督学习 Transformer 模型的规模，提供 Domain Adaptation 和 Privacy Protection，实现在法律领域 NLP 下的无监督超大规模训练的技术，这在之前尚未得到解决。

Nov, 2022

探索中文大型语言模型的隐私保护能力

我们设计了一个三层渐进式框架，用于评估语言系统的隐私，以解决大型语言模型在隐私保护方面的问题。观察结果显示，现有的汉语大型语言模型普遍存在隐私保护方面的缺陷，可能在基于这些模型的应用中带来相应的隐私风险。

Mar, 2024

如何保留文本隐私：一项针对自然语言处理的深度学习隐私保护方法的系统综述

本文对 2016 年至 2020 年间发表的 60 种深度学习模型进行了系统综述，介绍了一种新的分类法，并讨论了隐私保护自然语言处理模型中的隐私问题。

May, 2022

语言模型如何受指导以保护个人信息？

大规模多模式语言模型已在许多应用中证明具有变革性。然而，这些模型已被证明会记忆和泄漏预训练数据，引发用户隐私和信息安全方面的严重关切。我们介绍了 PrivQA - 一个多模式基准，用于评估在模拟场景中指示模型保护特定类别个人信息时，此隐私 / 效用权衡。我们还提出了一种通过迭代自我调节响应的技术，在很大程度上提高了隐私。通过一系列红队实验，我们发现对手可以通过简单的越狱方法绕过这些保护，使用文本和 / 或图像输入。我们相信 PrivQA 有潜力支持开发具有改进隐私保护和对抗鲁棒性的新模型。我们在指定的网址上发布了整个 PrivQA 数据集。

Oct, 2023

大语言模型中的差分隐私解码

本文提出了一种简单易行、计算轻量化的扰动机制，保证了模型的隐私性，在不影响模型实用性的情况下，可应用于所有 LLM 模型，解决了 LLM 在隐私保护与重新训练之间的折中问题。

May, 2022

我非我所写：隐私保护文本表示学习

该研究提出了一种文本数据双重隐私保护表示学习框架 (DPText), 可以实现高效保护用户隐私同时保证数据在情感分析和词性标注等任务中有较高实用价值。

Jul, 2019

大型语言模型可以作为良好的隐私保护学习者

利用特定域数据对大型语言模型进行微调时，存在个人身份信息敏感度的问题。为了解决这一挑战，我们引入了隐私保护语言模型（PPLM），通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析，并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是，正负样本指令微调成为一种有潜力的方法，可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。

Oct, 2023

大型语言模型中的隐私：攻击、防御与未来方向

给出了当前针对大型语言模型（LLMs）的隐私攻击的全面分析，并对其进行了分类，同时提供了用于对抗这些隐私攻击的重要防御策略，并指出了 LLMs 发展中可能出现的新的隐私问题和未来的研究方向。

Oct, 2023