私有合成数据的迭代方法：统一框架和新方法

Jun, 2021

私有合成数据的迭代方法：统一框架和新方法

Iterative Methods for Private Synthetic Data: Unifying Framework and New Methods

Terrance Liu, Giuseppe Vietri, Zhiwei Steven Wu

TL;DR本文旨在研究关于隐私合成数据生成的算法框架，提出了两种新的算法：私有熵投影（PEP）和具有指数机制的生成网络（GEM），这些算法表现出比现有算法更好的性能。

Abstract

We study private synthetic data generation for query release, where the goal is to construct a sanitized version of a sensitive dataset, subject to differential privacy, that approximately preserves the answers t

private synthetic data generation differential privacy statistical queries private entropy projection generative networks

发现论文，激发创造

PEARL: 私有嵌入和对抗重构学习合成数据

使用深度生成模型在不泄露敏感数据的情况下进行数据生成和训练。该方法通过独立的特征函数和对抗重新加权目标实现，并且在多个数据集上的实证评估表明，在合理的隐私级别下，我们的方法优于其他方法。

Jun, 2021

私有真正持久稳健预测

私密永恒预测（Private Everlasting Prediction，PEP）是一种实现差分隐私学习的模型，它通过黑盒访问 “预测神谕” 来预测来自基础分布的无标签样本的标签，并改进了前期工作的鲁棒性和样本复杂性。

Jan, 2024

联合选择：自适应地整合公共信息与私密合成数据

jam-pgm 是一种扩展的自适应测量框架，能够在选择公共数据和私有数据之间进行联合，并将公共数据纳入基于图模型的机制，从而在公共数据分布存在偏差时，能够胜过公共辅助和非公共辅助的合成数据生成机制。

Mar, 2024

通过基础模型 API 生成差分隐私合成数据 2: 文本

我们提出了一种名为 Aug-PE 的增强版 PE 算法，应用于文本的复杂情境，通过 API 访问大型语言模型，生成差分隐私的合成文本，实验证明 Aug-PE 可以产生具有竞争性效用的差分隐私合成文本，从而便捷地在隐私保护的语言模型应用中提供更可访问的路线。

Mar, 2024

具有私密密度估计的差分隐私合成数据

我们采用差分隐私的框架研究了敏感数据分析的方法，通过将均匀采样步骤替换为私有分布估计器，我们改进了 Boedihardjo 等人工作的算法，并提供了离散和连续分布的计算保证，适用于多种统计任务。

May, 2024

基于基础模型 API 的不同 ially Private 合成数据 1: 图像

利用 API 来生成差分隐私合成数据的方法（DPSDA），不需要模型训练，通过 Private Evolution（PE）框架解决了这个问题，在 synthetic images 取得了很好的效果，同样适用于处理像 Stable Diffusion 这样的大型基础模型。

May, 2023

差分隐私合成数据是否导致合成发现？

通过评估 Mann-Whitney U 检验在差分隐私合成生物医学数据上的 I 型和 II 型错误，本研究旨在确定在隐私保护合成数据上进行的统计假设检验是否可能导致测试的有效性丧失或功效降低。

Mar, 2024

利用大型语言模型生成私有合成文本

本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法，通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优，然后利用该模型可以产生差分隐私合成数据集，同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同，还可用于调整同一模型等级的分类器。

Jun, 2023

基于高效用度度量的差分隐私文本技术

本研究提出了一种新的方法：Truncated Exponential Mechanism（TEM），允许使用任何距离度量来对语言表示进行数据隐私转化，并在对该方法进行实证比较时发现，在保障数据隐私的同时，能够提供更大的度量选择自由度和更好的实验效用。

Jul, 2021

评估差分隐私合成数据对表格数据的效用和公平性在端到端机器学习流程中

对比真实数据，研究调查了采用差分隐私合成数据可以替代机器学习流程中的真实数据，并确定了训练和评估机器学习模型的最有效的合成数据生成技术。结果显示，基于边缘分布的合成数据生成器能够获取与真实数据相似的实用性和公平性特征。

Oct, 2023