PEARL: 私有嵌入和对抗重构学习合成数据

ICLRJun, 2021

PEARL: 私有嵌入和对抗重构学习合成数据

PEARL: Data Synthesis via Private Embeddings and Adversarial Reconstruction Learning

Seng Pei Liew, Tsubasa Takahashi, Michihiko Ueno

TL;DR使用深度生成模型在不泄露敏感数据的情况下进行数据生成和训练。该方法通过独立的特征函数和对抗重新加权目标实现，并且在多个数据集上的实证评估表明，在合理的隐私级别下，我们的方法优于其他方法。

Abstract

We propose a new framework of synthesizing data using deep generative models in a differentially private manner. Within our framework, sensitive data are sanitized with rigorous privacy guarantees in a

deep generative models differential privacy one-shot fashion adversarial re-weighting objective privacy guarantees

发现论文，激发创造

利用大型语言模型生成私有合成文本

本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法，通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优，然后利用该模型可以产生差分隐私合成数据集，同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同，还可用于调整同一模型等级的分类器。

Jun, 2023

利普希茨正则化变分自编码器生成差分隐私合成数据

本文探讨了使用具有随机性生成模型的方法来实现隐私保护数据生成，通过将深度模型的连续模数限制在适当的范围内以获得隐私保护，并实验证明了其有效性。

Apr, 2023

为私有深度学习生成人工数据

利用生成对抗网络产生保护隐私的人造数据，限制潜在的隐私泄露，且成功地在此数据上训练和验证机器学习模型。

Mar, 2018

使用卷积 GAN 产生差分隐私的合成医疗数据

本篇论文提出了一种基于不同 ially private 框架和卷积自编码器以及卷积生成对抗网络生成合成数据的方法，以应对使用医疗记录数据所面临的隐私困难，该方法能够捕捉到原始数据中存在的时间信息和特征相关性，并在有监督和无监督情况下使用公开可用的标准医疗数据集，优于现有的同类方法。

Dec, 2020

相似性为基础的隐私测量的不足：针对 “真正匿名合成数据” 的重构攻击

通过评估数据的统计相似性来衡量隐私是不可靠和不一致的，而生成模型只应以差分隐私为标准以保护数据隐私。本文针对领先公司提供的隐私度量指标进行分析，揭示了一些关键的推理缺陷，并提出了成功恢复生成模型中绝大部分用于训练的异常记录的重构攻击 ReconSyn。研究表明，仅将差分隐私应用于模型或使用低效的生成器不能减轻 ReconSyn 对隐私的泄露风险，因为泄露主要来自于度量指标。总体而言，我们的工作提醒从业人员不要偏离既定的隐私保护机制。

Dec, 2023

具有私密密度估计的差分隐私合成数据

我们采用差分隐私的框架研究了敏感数据分析的方法，通过将均匀采样步骤替换为私有分布估计器，我们改进了 Boedihardjo 等人工作的算法，并提供了离散和连续分布的计算保证，适用于多种统计任务。

May, 2024

从私有化数据中训练生成模型

本文提出了一种基于局部差分隐私的生成对抗网络训练方法，通过熵正则化 Wasserstein 距离的组合使用来降噪数据分布，有效地缓解了正则化偏差和隐私噪声效应。

Jun, 2023

差分隐私深度生成模型的统一视角

利用不同隐私保护方法在深度神经网络上进行私密训练，以实现维度较高的数据生成，并提出统一的方法以提供系统性的派生方法，满足不同用例的需求，探讨不同方法之间的优势、限制和内在相关性以启发未来研究，并提出前进的潜在途径以推动隐私保护学习领域的发展。

Sep, 2023

衡量和减轻表格生成模型的隐私风险

合成数据和生成模型在隐私保护的数据共享解决方案中迅速崛起，并通过在表格综合机上实施全面的实证分析，突出了五种最先进表格综合机的实用 - 隐私权衡，提出了一个新的差分隐私表格潜在扩散模型，称为 DP-TLDM，能够在保持可比较的隐私风险水平的同时，显著提高合成数据的实用性。

Mar, 2024

在差分隐私下生成表格数据集

优化生成模型的质量和隐私之间的平衡，通过引入关注机制学习可逆的表格表示和差分隐私扩散模型来合成高质量的表格数据。

Aug, 2023