差分隐私的合成文本生成：一个简单实用的方法

Oct, 2022

差分隐私的合成文本生成：一个简单实用的方法

Synthetic Text Generation with Differential Privacy: A Simple and Practical Recipe

Xiang Yue, Huseyin A. Inan, Xuechen Li, Girish Kumar, Julia McAnallen...

TL;DR本文讨论隐私问题在数据驱动产品和服务中引起的关注，提出了一种利用差分隐私的生成式语言模型的简单、实用和有效方法，以生成有用的合成文本同时缓解隐私问题。经过广泛的实证分析，我们证明了我们的方法产生的合成数据在实用性上与其非私有对应物相当竞争，同时提供了强大的保护措施以防止潜在的隐私泄漏。

Abstract

privacy concerns have attracted increasing attention in data-driven products and services. Existing legislation forbids arbitrary processing of personal data collected from individuals. Generating synthetic versi

privacy concerns data-driven products personal data differential privacy generative language model

发现论文，激发创造

利用大型语言模型生成私有合成文本

本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法，通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优，然后利用该模型可以产生差分隐私合成数据集，同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同，还可用于调整同一模型等级的分类器。

Jun, 2023

安全数据共享的差分隐私语言模型

使用全局差分隐私的方法，通过训练生成式语言模型并从中采样数据来保护数据分享者的隐私，并通过新的匹配损失设计自然语言提示，得出高质量的文本数据集，这些数据集不仅不会泄露原始数据的信息，而且还适合训练用于分析真实世界数据的模型，同样证明基于私有合成数据训练分类器的性能优于直接基于真实数据使用 DP-SGD 进行训练。

Oct, 2022

PrivSyn：差分隐私数据合成

本文提出了 PrivSyn，第一个可以处理普通数据集（具有 100 个属性和域大小 $>2^{500}$）的自动合成数据生成方法，并在多个数据集上进行了广泛的评估，以展示我们的方法的性能。

Dec, 2020

通过基础模型 API 生成差分隐私合成数据 2: 文本

我们提出了一种名为 Aug-PE 的增强版 PE 算法，应用于文本的复杂情境，通过 API 访问大型语言模型，生成差分隐私的合成文本，实验证明 Aug-PE 可以产生具有竞争性效用的差分隐私合成文本，从而便捷地在隐私保护的语言模型应用中提供更可访问的路线。

Mar, 2024

在差分隐私下生成表格数据集

优化生成模型的质量和隐私之间的平衡，通过引入关注机制学习可逆的表格表示和差分隐私扩散模型来合成高质量的表格数据。

Aug, 2023

差分隐私深度生成模型的统一视角

利用不同隐私保护方法在深度神经网络上进行私密训练，以实现维度较高的数据生成，并提出统一的方法以提供系统性的派生方法，满足不同用例的需求，探讨不同方法之间的优势、限制和内在相关性以启发未来研究，并提出前进的潜在途径以推动隐私保护学习领域的发展。

Sep, 2023

具有私密密度估计的差分隐私合成数据

我们采用差分隐私的框架研究了敏感数据分析的方法，通过将均匀采样步骤替换为私有分布估计器，我们改进了 Boedihardjo 等人工作的算法，并提供了离散和连续分布的计算保证，适用于多种统计任务。

May, 2024

通过自然文本清洗技术实现文本分析的差分隐私保护

本文提出了利用局部差分隐私 (DP) 对文本进行隐私保护的方法，使 BERT 自然语言处理可以进行隐私保护并保证了较高的数据效用，然而高效用并未增加推理攻击的成功率。

Jun, 2021

差分隐私数据合成方法比较研究

本研究探讨了当前的差分隐私数据合成技术对于发布原始数据的个人级别代理数据的技术概念，以及通过广泛的模拟研究评估每种数据合成技术的统计效用和推断属性，为不公开数据的发布提供了差分隐私的实际可行性和效用，同时提出了未来的研究方向。

Feb, 2016

深度生成模型、合成表格数据与差分隐私：概述与综述

该文章综合介绍了最近在通过深度生成模型生成合成数据方面的研究进展，重点关注表格数据集。我们特别概述了在隐私敏感数据背景下合成数据生成的重要性。此外，我们强调了使用深度生成模型相对于其他方法的优势，并详细解释了底层概念，包括无监督学习、神经网络和生成模型。该论文涵盖了在对表格数据集使用深度生成模型时涉及的挑战和考虑因素，如数据归一化、隐私问题和模型评估。本综述为对合成数据生成及其应用感兴趣的研究人员和实践者提供了有价值的资源。

Jul, 2023