基于分区的差分隐私合成数据生成

Oct, 2023

基于分区的差分隐私合成数据生成

Partition-based differentially private synthetic data generation

Meifan Zhang, Dihang Deng, Lihua Yin

TL;DR我们的方法采用基于分区的方法来改善合成数据的质量和可用性，在限定的隐私预算下，我们的方法优于现有方法，因此是私人合成数据共享的首选。

Abstract

private synthetic data sharing is preferred as it keeps the distribution and nuances of original data compared to summary statistics. The state-of-the-art methods adopt a →

private synthetic data sharing summary statistics select-measure-generate paradigm privacy budget partition-based approach

发现论文，激发创造

具有私密密度估计的差分隐私合成数据

我们采用差分隐私的框架研究了敏感数据分析的方法，通过将均匀采样步骤替换为私有分布估计器，我们改进了 Boedihardjo 等人工作的算法，并提供了离散和连续分布的计算保证，适用于多种统计任务。

May, 2024

使用 KD 树实现差分隐私合成数据

提出了基于空间划分技术的差分隐私合成数据生成算法，可以保护数据隐私并生成与原始数据类似的数据，具有可解释性、透明性和可扩展性，并且在实验中表现出相比之前方法更优的效果。

Jun, 2023

基准测试差分隐私合成数据生成算法

本研究对不同差分隐私合成数据生成算法进行了系统基准测试，评估了合成数据的实用性，并确定了表现最佳和最差的算法。

Dec, 2021

PrivSyn：差分隐私数据合成

本文提出了 PrivSyn，第一个可以处理普通数据集（具有 100 个属性和域大小 $>2^{500}$）的自动合成数据生成方法，并在多个数据集上进行了广泛的评估，以展示我们的方法的性能。

Dec, 2020

具有鉴别信息的私有集生成

本研究提出了一种基于判别信息的生成模型训练方法，通过优化一小部分样本的代表性，以实现高维数据的差分隐私保护，并有效提升了现有生成模型的样本效用。

Nov, 2022

一个基于距离的原创全合成数据生成方法的统计属性和隐私保证

通过开发多步骤的合成数据生成框架并评估其风险效用模型，成功评估了使用该框架生成的数据的质量，展示了开放 - CESP 倡议的技术和概念的可行性。

Oct, 2023

使用差分隐私合成双胞胎数据在分布式数据中进行合作学习

通过共享差分私有合成数据，利用合成数据集进行协同学习可以帮助不同方参与者更准确地估计目标统计数据，尤其对包含代表性不足群体数据的参与者，共享合成数据特别有助于做更好的分析。

Aug, 2023

评估差分隐私合成数据对表格数据的效用和公平性在端到端机器学习流程中

对比真实数据，研究调查了采用差分隐私合成数据可以替代机器学习流程中的真实数据，并确定了训练和评估机器学习模型的最有效的合成数据生成技术。结果显示，基于边缘分布的合成数据生成器能够获取与真实数据相似的实用性和公平性特征。

Oct, 2023

联合选择：自适应地整合公共信息与私密合成数据

jam-pgm 是一种扩展的自适应测量框架，能够在选择公共数据和私有数据之间进行联合，并将公共数据纳入基于图模型的机制，从而在公共数据分布存在偏差时，能够胜过公共辅助和非公共辅助的合成数据生成机制。

Mar, 2024

合成数据 -- 匿名化之地普通日

评估了现有生成模型绘制的合成数据的隐私保护优势，发现与传统的匿名化技术相比，其提供的隐私保护水平无法预测且数据效用低下，并不存在更好的隐私保护与数据效用均衡的解决方案。

Nov, 2020