基于分区的差分隐私合成数据生成
我们采用差分隐私的框架研究了敏感数据分析的方法,通过将均匀采样步骤替换为私有分布估计器,我们改进了 Boedihardjo 等人工作的算法,并提供了离散和连续分布的计算保证,适用于多种统计任务。
May, 2024
提出了基于空间划分技术的差分隐私合成数据生成算法,可以保护数据隐私并生成与原始数据类似的数据,具有可解释性、透明性和可扩展性,并且在实验中表现出相比之前方法更优的效果。
Jun, 2023
本文提出了 PrivSyn,第一个可以处理普通数据集(具有 100 个属性和域大小 $>2^{500}$)的自动合成数据生成方法,并在多个数据集上进行了广泛的评估,以展示我们的方法的性能。
Dec, 2020
通过开发多步骤的合成数据生成框架并评估其风险效用模型,成功评估了使用该框架生成的数据的质量,展示了开放 - CESP 倡议的技术和概念的可行性。
Oct, 2023
通过共享差分私有合成数据,利用合成数据集进行协同学习可以帮助不同方参与者更准确地估计目标统计数据,尤其对包含代表性不足群体数据的参与者,共享合成数据特别有助于做更好的分析。
Aug, 2023
对比真实数据,研究调查了采用差分隐私合成数据可以替代机器学习流程中的真实数据,并确定了训练和评估机器学习模型的最有效的合成数据生成技术。结果显示,基于边缘分布的合成数据生成器能够获取与真实数据相似的实用性和公平性特征。
Oct, 2023
jam-pgm 是一种扩展的自适应测量框架,能够在选择公共数据和私有数据之间进行联合,并将公共数据纳入基于图模型的机制,从而在公共数据分布存在偏差时,能够胜过公共辅助和非公共辅助的合成数据生成机制。
Mar, 2024
评估了现有生成模型绘制的合成数据的隐私保护优势,发现与传统的匿名化技术相比,其提供的隐私保护水平无法预测且数据效用低下,并不存在更好的隐私保护与数据效用均衡的解决方案。
Nov, 2020