合成数据与监管的相遇

ICMLJul, 2023

When Synthetic Data Met Regulation

Georgi Ganev

TL;DR本文认为由差分隐私生成模型产生的合成数据可以被充分匿名化，从而成为匿名数据，并且符合监管要求。

Abstract

In this paper, we argue that synthetic data produced by Differentially Private generative models can be sufficiently anonymized and, therefore, a

synthetic data differentially private generative models anonymized anonymous data regulatory compliance

发现论文，激发创造

合成数据 -- 匿名化之地普通日

评估了现有生成模型绘制的合成数据的隐私保护优势，发现与传统的匿名化技术相比，其提供的隐私保护水平无法预测且数据效用低下，并不存在更好的隐私保护与数据效用均衡的解决方案。

Nov, 2020

差分隐私的合成文本生成：一个简单实用的方法

本文讨论隐私问题在数据驱动产品和服务中引起的关注，提出了一种利用差分隐私的生成式语言模型的简单、实用和有效方法，以生成有用的合成文本同时缓解隐私问题。经过广泛的实证分析，我们证明了我们的方法产生的合成数据在实用性上与其非私有对应物相当竞争，同时提供了强大的保护措施以防止潜在的隐私泄漏。

Oct, 2022

具有私密密度估计的差分隐私合成数据

我们采用差分隐私的框架研究了敏感数据分析的方法，通过将均匀采样步骤替换为私有分布估计器，我们改进了 Boedihardjo 等人工作的算法，并提供了离散和连续分布的计算保证，适用于多种统计任务。

May, 2024

利普希茨正则化变分自编码器生成差分隐私合成数据

本文探讨了使用具有随机性生成模型的方法来实现隐私保护数据生成，通过将深度模型的连续模数限制在适当的范围内以获得隐私保护，并实验证明了其有效性。

Apr, 2023

隐私保护的合成教育数据生成

本文提出了一种保护参与者隐私的教育数据生成模型和比较合成数据生成器的评估框架，阐述了 Naive 假名化可能导致的再识别威胁，并提出了保证隐私的技术。作者还在现有的大规模教育开放数据集上进行了评估。

Jul, 2022

深度生成模型、合成表格数据与差分隐私：概述与综述

该文章综合介绍了最近在通过深度生成模型生成合成数据方面的研究进展，重点关注表格数据集。我们特别概述了在隐私敏感数据背景下合成数据生成的重要性。此外，我们强调了使用深度生成模型相对于其他方法的优势，并详细解释了底层概念，包括无监督学习、神经网络和生成模型。该论文涵盖了在对表格数据集使用深度生成模型时涉及的挑战和考虑因素，如数据归一化、隐私问题和模型评估。本综述为对合成数据生成及其应用感兴趣的研究人员和实践者提供了有价值的资源。

Jul, 2023

基于生成对抗网络的数据合成

该研究提出了一种名为 table-GAN 的方法，使用生成对抗网络（GANs）合成伪造表格，用于保证数据匿名性和模型兼容性。实验证明，该方法在隐私和模型兼容性之间取得平衡，同时解决了数据泄露问题。

Jun, 2018

PrivSyn：差分隐私数据合成

本文提出了 PrivSyn，第一个可以处理普通数据集（具有 100 个属性和域大小 $>2^{500}$）的自动合成数据生成方法，并在多个数据集上进行了广泛的评估，以展示我们的方法的性能。

Dec, 2020

为私有深度学习生成人工数据

利用生成对抗网络产生保护隐私的人造数据，限制潜在的隐私泄露，且成功地在此数据上训练和验证机器学习模型。

Mar, 2018

利用大型语言模型生成私有合成文本

本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法，通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优，然后利用该模型可以产生差分隐私合成数据集，同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同，还可用于调整同一模型等级的分类器。

Jun, 2023