基准测试差分隐私合成数据生成算法

Dec, 2021

基准测试差分隐私合成数据生成算法

Benchmarking Differentially Private Synthetic Data Generation Algorithms

Yuchao Tao, Ryan McKenna, Michael Hay, Ashwin Machanavajjhala, Gerome Miklau

TL;DR本研究对不同差分隐私合成数据生成算法进行了系统基准测试，评估了合成数据的实用性，并确定了表现最佳和最差的算法。

Abstract

This work presents a systematic benchmark of differentially private synthetic data generation algorithms that can generate tabular data. Utility of the →

differentially private synthetic data tabular data empirical evaluation ml classification model

发现论文，激发创造

PrivSyn：差分隐私数据合成

本文提出了 PrivSyn，第一个可以处理普通数据集（具有 100 个属性和域大小 $>2^{500}$）的自动合成数据生成方法，并在多个数据集上进行了广泛的评估，以展示我们的方法的性能。

Dec, 2020

评估差分隐私合成数据对表格数据的效用和公平性在端到端机器学习流程中

对比真实数据，研究调查了采用差分隐私合成数据可以替代机器学习流程中的真实数据，并确定了训练和评估机器学习模型的最有效的合成数据生成技术。结果显示，基于边缘分布的合成数据生成器能够获取与真实数据相似的实用性和公平性特征。

Oct, 2023

朝向基于原则的表格数据合成算法评估

利用扩散模型和大型语言模型的新型综合器进行对比评估，提出了一套评估指标，旨在解决现有评估指标的局限性，并为调优提供了普遍目标，以保护数据隐私和提高合成数据的质量。

Feb, 2024

在差分隐私下生成表格数据集

优化生成模型的质量和隐私之间的平衡，通过引入关注机制学习可逆的表格表示和差分隐私扩散模型来合成高质量的表格数据。

Aug, 2023

具有私密密度估计的差分隐私合成数据

我们采用差分隐私的框架研究了敏感数据分析的方法，通过将均匀采样步骤替换为私有分布估计器，我们改进了 Boedihardjo 等人工作的算法，并提供了离散和连续分布的计算保证，适用于多种统计任务。

May, 2024

将差分隐私合成数据应用于关系数据库的适应性

本研究提出了一种首次相结合现有差分隐私机制生成综合性关系型数据库的算法，通过迭代优化各个合成表之间的关系，最小化其低阶边缘分布的近似误差，并保持参照完整性。最终，我们对该算法提供了差分隐私和理论效用保证。

May, 2024

基于分区的差分隐私合成数据生成

我们的方法采用基于分区的方法来改善合成数据的质量和可用性，在限定的隐私预算下，我们的方法优于现有方法，因此是私人合成数据共享的首选。

Oct, 2023

测量用于竞赛的合成数据的质量

通过研究算法相对性能，本文讨论如何生成保护数据隐私的合成数据，以解决共享数据所带来的隐私问题。

Jun, 2018

私人合成数据发布的新型高效算法

提出了三种新的算法，用于构建差分隐私合成数据，且算法在最坏情况下具有差分隐私，通过理论分析和实证评估，确保准确性与隐私性。

Jul, 2020

深度生成模型、合成表格数据与差分隐私：概述与综述

该文章综合介绍了最近在通过深度生成模型生成合成数据方面的研究进展，重点关注表格数据集。我们特别概述了在隐私敏感数据背景下合成数据生成的重要性。此外，我们强调了使用深度生成模型相对于其他方法的优势，并详细解释了底层概念，包括无监督学习、神经网络和生成模型。该论文涵盖了在对表格数据集使用深度生成模型时涉及的挑战和考虑因素，如数据归一化、隐私问题和模型评估。本综述为对合成数据生成及其应用感兴趣的研究人员和实践者提供了有价值的资源。

Jul, 2023