利用大型语言模型生成私有合成文本

Jun, 2023

利用大型语言模型生成私有合成文本

Harnessing large-language models to generate private synthetic text

Alexey Kurakin, Natalia Ponomareva, Umar Syed, Liam MacDermed, Andreas Terzis

TL;DR本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法，通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优，然后利用该模型可以产生差分隐私合成数据集，同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同，还可用于调整同一模型等级的分类器。

Abstract

differentially private (DP) training methods like dp-sgd can protect sensitive training data by ensuring that ML models will not reveal private information. An alternative approach, which this paper studies, is t

differentially private dp-sgd generative language model private finetuning dp synthetic data

发现论文，激发创造

差分隐私的合成文本生成：一个简单实用的方法

本文讨论隐私问题在数据驱动产品和服务中引起的关注，提出了一种利用差分隐私的生成式语言模型的简单、实用和有效方法，以生成有用的合成文本同时缓解隐私问题。经过广泛的实证分析，我们证明了我们的方法产生的合成数据在实用性上与其非私有对应物相当竞争，同时提供了强大的保护措施以防止潜在的隐私泄漏。

Oct, 2022

安全数据共享的差分隐私语言模型

使用全局差分隐私的方法，通过训练生成式语言模型并从中采样数据来保护数据分享者的隐私，并通过新的匹配损失设计自然语言提示，得出高质量的文本数据集，这些数据集不仅不会泄露原始数据的信息，而且还适合训练用于分析真实世界数据的模型，同样证明基于私有合成数据训练分类器的性能优于直接基于真实数据使用 DP-SGD 进行训练。

Oct, 2022

差分隐私深度生成模型的统一视角

利用不同隐私保护方法在深度神经网络上进行私密训练，以实现维度较高的数据生成，并提出统一的方法以提供系统性的派生方法，满足不同用例的需求，探讨不同方法之间的优势、限制和内在相关性以启发未来研究，并提出前进的潜在途径以推动隐私保护学习领域的发展。

Sep, 2023

通过基础模型 API 生成差分隐私合成数据 2: 文本

我们提出了一种名为 Aug-PE 的增强版 PE 算法，应用于文本的复杂情境，通过 API 访问大型语言模型，生成差分隐私的合成文本，实验证明 Aug-PE 可以产生具有竞争性效用的差分隐私合成文本，从而便捷地在隐私保护的语言模型应用中提供更可访问的路线。

Mar, 2024

评估差分隐私合成数据对表格数据的效用和公平性在端到端机器学习流程中

对比真实数据，研究调查了采用差分隐私合成数据可以替代机器学习流程中的真实数据，并确定了训练和评估机器学习模型的最有效的合成数据生成技术。结果显示，基于边缘分布的合成数据生成器能够获取与真实数据相似的实用性和公平性特征。

Oct, 2023

精细选择 1% 数据集进行预训练！生成带语义查询的差分私有图像数据

DP 图像数据合成方法 PRIVIMAGE 通过精选预训练数据、轻参数化生成模型和隐私保护梯度下降等技术，实现高保真度和高效用性的 DP 数据集的创建，并在综合实验中展现出超越业界方法的合成性能和资源节约效果。

Oct, 2023

差分隐私语言模型受益于公共预训练

通过微调基于公共语料库的模型来实现高质量和隐私保护的语言模型，提高私有领域的模型性能，让其成为可能。

Sep, 2020

大型语言模型能成为强差分私有学习器

使用预训练的语言模型以及非标准化超参数和 fine-tuning 目标结合 DP 优化技术，可在中等规模的语料库上获得胜过强基线和同一隐私预算下的 DP-trained 模型的 NLP 模型。我们还提出了一种内存节省技术来解决在大型 Transformers 上运行 DP-SGD 的计算难题，该技术可以使得 clip 在 DP-SGD 中运行而无需对模型中的任何线性层实例化每个样本的梯度，成本与非隐私的训练相当，并且有适度的运行时间开销。

Oct, 2021

通过合成文本生成实现差分隐私知识蒸馏

利用差分隐私的知识蒸馏算法，通过利用合成数据和教师模型的输出分布，成功地在压缩自回归型大型语言模型的同时保护训练数据的隐私。

Mar, 2024

利用梯度衍生的度量对不同 ially private 训练中的数据选择和估值进行优化

研究了如何在严格保护隐私的情况下，利用梯度信息来选择有利于模型训练的数据，解决在协同训练深度学习模型中，难以区分出有用数据点的问题。

May, 2023