FFPDG：快速、公正、私密数据生成

ICLRJun, 2023

FFPDG：快速、公正、私密数据生成

FFPDG: Fast, Fair and Private Data Generation

PDF

Weijie Xu, Jinjin Zhao, Francis Iannacci, Bo Wang

TL;DR该研究提出一种快速、公平、灵活和私密的数据生成方法，通过理论和实验证明，使用该方法生成的数据训练的模型可以在真实应用场景中（推理阶段）表现良好。

Abstract

generative modeling has been used frequently in synthetic data generation. fairness and →

generative modeling synthetic data generation fairness privacy gan

发现论文，激发创造

公平合成数据生成

本研究提出一种通过预处理算法识别和删除偏差样本以生成更公平的合成数据的管道，可以有效地克服许多挑战，并在某些情况下提高性能。

Oct, 2022

具有鉴别信息的私有集生成

本研究提出了一种基于判别信息的生成模型训练方法，通过优化一小部分样本的代表性，以实现高维数据的差分隐私保护，并有效提升了现有生成模型的样本效用。

Nov, 2022

为私有深度学习生成人工数据

利用生成对抗网络产生保护隐私的人造数据，限制潜在的隐私泄露，且成功地在此数据上训练和验证机器学习模型。

Mar, 2018

基于生成对抗网络的数据合成

该研究提出了一种名为 table-GAN 的方法，使用生成对抗网络（GANs）合成伪造表格，用于保证数据匿名性和模型兼容性。实验证明，该方法在隐私和模型兼容性之间取得平衡，同时解决了数据泄露问题。

Jun, 2018

公平感知生成对抗网络

本文提出了一种名为 FairGAN 的公平性生成对抗网络，旨在生成既不带偏见又具有较好数据实用性的数据。与基本的公平数据生成模型相比，FairGAN 还确保了对生成数据进行分类的分类器可以在真实数据上实现公平分类。

May, 2018

联邦生成隐私

本文提出了 FedGP 框架，它使用生成对抗网络在联邦学习环境下进行隐私保护数据发布，实现了高质量的标记数据样本的生成，并在实验中证明了该方法可以显著降低模型反演攻击的风险。

Oct, 2019

评估差分隐私合成数据对表格数据的效用和公平性在端到端机器学习流程中

对比真实数据，研究调查了采用差分隐私合成数据可以替代机器学习流程中的真实数据，并确定了训练和评估机器学习模型的最有效的合成数据生成技术。结果显示，基于边缘分布的合成数据生成器能够获取与真实数据相似的实用性和公平性特征。

Oct, 2023

利用大型语言模型生成私有合成文本

本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法，通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优，然后利用该模型可以产生差分隐私合成数据集，同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同，还可用于调整同一模型等级的分类器。

Jun, 2023

从真实数据到合成数据的转换：量化模型中的偏差

本研究旨在建立使用合成数据训练的模型在偏见和公平之间的权衡，并研究了合成数据生成技术的变体，包括差分隐私生成方案，通过实验表明，合成数据训练的模型存在不同程度的偏差影响，且生成的特征不相关的技术表现良好。该研究有助于数据科学实践者理解合成数据的使用中的偏见。

May, 2021

差分隐私的合成文本生成：一个简单实用的方法

本文讨论隐私问题在数据驱动产品和服务中引起的关注，提出了一种利用差分隐私的生成式语言模型的简单、实用和有效方法，以生成有用的合成文本同时缓解隐私问题。经过广泛的实证分析，我们证明了我们的方法产生的合成数据在实用性上与其非私有对应物相当竞争，同时提供了强大的保护措施以防止潜在的隐私泄漏。

Oct, 2022