在差分隐私下生成表格数据集
合成数据和生成模型在隐私保护的数据共享解决方案中迅速崛起,并通过在表格综合机上实施全面的实证分析,突出了五种最先进表格综合机的实用 - 隐私权衡,提出了一个新的差分隐私表格潜在扩散模型,称为 DP-TLDM,能够在保持可比较的隐私风险水平的同时,显著提高合成数据的实用性。
Mar, 2024
该文章综合介绍了最近在通过深度生成模型生成合成数据方面的研究进展,重点关注表格数据集。我们特别概述了在隐私敏感数据背景下合成数据生成的重要性。此外,我们强调了使用深度生成模型相对于其他方法的优势,并详细解释了底层概念,包括无监督学习、神经网络和生成模型。该论文涵盖了在对表格数据集使用深度生成模型时涉及的挑战和考虑因素,如数据归一化、隐私问题和模型评估。本综述为对合成数据生成及其应用感兴趣的研究人员和实践者提供了有价值的资源。
Jul, 2023
使用预训练的大型语言模型(LLMs),DP-LLMTGen 引入了一种新的框架来进行差分私有表格数据合成,通过微调过程模拟敏感数据集并生成多样的合成数据,有效地解决了实际挑战。
Jun, 2024
该研究提出了一种名为 table-GAN 的方法,使用生成对抗网络(GANs)合成伪造表格,用于保证数据匿名性和模型兼容性。实验证明,该方法在隐私和模型兼容性之间取得平衡,同时解决了数据泄露问题。
Jun, 2018
本文提出了 PrivSyn,第一个可以处理普通数据集(具有 100 个属性和域大小 $>2^{500}$)的自动合成数据生成方法,并在多个数据集上进行了广泛的评估,以展示我们的方法的性能。
Dec, 2020
大量的表格数据由于隐私、数据质量和数据共享限制而未完全利用。本文介绍了 ProgSyn,这是第一个可编程的合成表格数据生成算法,它允许对生成的数据进行全面的自定义。通过在原始数据集上进行预训练并根据提供的规范进行差分可微损失函数的微调,ProgSyn 可以确保高质量的数据并满足自定义规范。实验评估结果表明,ProgSyn 在多个约束条件下取得了新的最先进水平,并且具有广泛的适用性。综合而言,ProgSyn 为生成受限制的合成表格数据提供了灵活、易用的框架,允许规范超越先前的工作的能力。
Jul, 2023
对比真实数据,研究调查了采用差分隐私合成数据可以替代机器学习流程中的真实数据,并确定了训练和评估机器学习模型的最有效的合成数据生成技术。结果显示,基于边缘分布的合成数据生成器能够获取与真实数据相似的实用性和公平性特征。
Oct, 2023
本文讨论隐私问题在数据驱动产品和服务中引起的关注,提出了一种利用差分隐私的生成式语言模型的简单、实用和有效方法,以生成有用的合成文本同时缓解隐私问题。经过广泛的实证分析,我们证明了我们的方法产生的合成数据在实用性上与其非私有对应物相当竞争,同时提供了强大的保护措施以防止潜在的隐私泄漏。
Oct, 2022