基准测试差分隐私合成数据生成算法
本文提出了 PrivSyn,第一个可以处理普通数据集(具有 100 个属性和域大小 $>2^{500}$)的自动合成数据生成方法,并在多个数据集上进行了广泛的评估,以展示我们的方法的性能。
Dec, 2020
对比真实数据,研究调查了采用差分隐私合成数据可以替代机器学习流程中的真实数据,并确定了训练和评估机器学习模型的最有效的合成数据生成技术。结果显示,基于边缘分布的合成数据生成器能够获取与真实数据相似的实用性和公平性特征。
Oct, 2023
利用扩散模型和大型语言模型的新型综合器进行对比评估,提出了一套评估指标,旨在解决现有评估指标的局限性,并为调优提供了普遍目标,以保护数据隐私和提高合成数据的质量。
Feb, 2024
我们采用差分隐私的框架研究了敏感数据分析的方法,通过将均匀采样步骤替换为私有分布估计器,我们改进了 Boedihardjo 等人工作的算法,并提供了离散和连续分布的计算保证,适用于多种统计任务。
May, 2024
本研究提出了一种首次相结合现有差分隐私机制生成综合性关系型数据库的算法,通过迭代优化各个合成表之间的关系,最小化其低阶边缘分布的近似误差,并保持参照完整性。最终,我们对该算法提供了差分隐私和理论效用保证。
May, 2024
该文章综合介绍了最近在通过深度生成模型生成合成数据方面的研究进展,重点关注表格数据集。我们特别概述了在隐私敏感数据背景下合成数据生成的重要性。此外,我们强调了使用深度生成模型相对于其他方法的优势,并详细解释了底层概念,包括无监督学习、神经网络和生成模型。该论文涵盖了在对表格数据集使用深度生成模型时涉及的挑战和考虑因素,如数据归一化、隐私问题和模型评估。本综述为对合成数据生成及其应用感兴趣的研究人员和实践者提供了有价值的资源。
Jul, 2023