FFPDG:快速、公正、私密数据生成
该研究提出了一种名为 table-GAN 的方法,使用生成对抗网络(GANs)合成伪造表格,用于保证数据匿名性和模型兼容性。实验证明,该方法在隐私和模型兼容性之间取得平衡,同时解决了数据泄露问题。
Jun, 2018
本文提出了一种名为 FairGAN 的公平性生成对抗网络,旨在生成既不带偏见又具有较好数据实用性的数据。与基本的公平数据生成模型相比,FairGAN 还确保了对生成数据进行分类的分类器可以在真实数据上实现公平分类。
May, 2018
本文提出了 FedGP 框架,它使用生成对抗网络在联邦学习环境下进行隐私保护数据发布,实现了高质量的标记数据样本的生成,并在实验中证明了该方法可以显著降低模型反演攻击的风险。
Oct, 2019
对比真实数据,研究调查了采用差分隐私合成数据可以替代机器学习流程中的真实数据,并确定了训练和评估机器学习模型的最有效的合成数据生成技术。结果显示,基于边缘分布的合成数据生成器能够获取与真实数据相似的实用性和公平性特征。
Oct, 2023
本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法,通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优,然后利用该模型可以产生差分隐私合成数据集,同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同,还可用于调整同一模型等级的分类器。
Jun, 2023
本研究旨在建立使用合成数据训练的模型在偏见和公平之间的权衡,并研究了合成数据生成技术的变体,包括差分隐私生成方案,通过实验表明,合成数据训练的模型存在不同程度的偏差影响,且生成的特征不相关的技术表现良好。该研究有助于数据科学实践者理解合成数据的使用中的偏见。
May, 2021
本文讨论隐私问题在数据驱动产品和服务中引起的关注,提出了一种利用差分隐私的生成式语言模型的简单、实用和有效方法,以生成有用的合成文本同时缓解隐私问题。经过广泛的实证分析,我们证明了我们的方法产生的合成数据在实用性上与其非私有对应物相当竞争,同时提供了强大的保护措施以防止潜在的隐私泄漏。
Oct, 2022