高维数据的差分隐私低维表示

May, 2023

Differentially private low-dimensional representation of high-dimensional data

Yiyun He, Thomas Strohmer, Roman Vershynin, Yizhe Zhu

TL;DR本文提出了一种基于差分隐私算法的，可有效从高维数据集中生成低维合成数据的方法，通过运用私有主成分分析过程并保证符合 Wasserstein 距离的实用性保障，避免了维度诅咒问题。

Abstract

Differentially private synthetic data provide a powerful mechanism to enable data analysis while protecting sensitive information about individuals. However, when the data lie in a high-dimensional space, the accuracy of the →

differential privacy synthetic data high-dimensional data principal component analysis wasserstein distance

发现论文，激发创造

差分隐私主成分的近似最优算法

本文探讨了不同 ially private PCA 方法的理论和实证性能，并提出了一种明确优化输出效用的新方法。我们发现其样本复杂度与现有程序的不同之处在于其与数据维度的缩放，而且在实际数据中，该方法与现有方法相比具有较大的性能差距。

Jul, 2012

具有私密密度估计的差分隐私合成数据

我们采用差分隐私的框架研究了敏感数据分析的方法，通过将均匀采样步骤替换为私有分布估计器，我们改进了 Boedihardjo 等人工作的算法，并提供了离散和连续分布的计算保证，适用于多种统计任务。

May, 2024

使用 KD 树实现差分隐私合成数据

提出了基于空间划分技术的差分隐私合成数据生成算法，可以保护数据隐私并生成与原始数据类似的数据，具有可解释性、透明性和可扩展性，并且在实验中表现出相比之前方法更优的效果。

Jun, 2023

隐私学习子空间

该研究探讨了差分隐私算法如何应用于低维线性子空间，以发现数据的低维结构并尽可能避免在隐私或准确性方面的代价。

May, 2021

在线差分私有合成数据生成

在线差分隐私合成数据生成算法，针对数据流和无限时间范围内的超立方体数据，通过在线算法在每个时间 t 生成差分隐私合成数据集，实现在 1-Wasserstein 距离下的近似最优精确度约束。

Feb, 2024

利普希茨正则化变分自编码器生成差分隐私合成数据

本文探讨了使用具有随机性生成模型的方法来实现隐私保护数据生成，通过将深度模型的连续模数限制在适当的范围内以获得隐私保护，并实验证明了其有效性。

Apr, 2023

具压缩的差分隐私

本文研究了一种简单的乘法数据库转换方法，它可以利用随机线性或仿射变换对数据进行压缩，从而显著降低数据记录的数量，并保持原始输入变量的数量。通过差分隐私（Dwork 06）概念，本文提供了一个分析框架，旨在表明，尽管实现差分隐私保证存在一般的困难，但可以公开用于一些常见的统计学习应用的合成数据。这包括针对高维稀疏回归（Zhou et al. 07）、主成分分析（PCA）和基于初始数据协方差的其他统计测量（Liu et al. 06）

Jan, 2009

无需分布假设的差分隐私子空间估计

在这项工作中，我们在两种不同类型的输入数据的奇异值间隙下，对私有子空间估计的问题进行了数学建模，并证明了两种情况下的新的上下界。特别是，我们的结果确定了在估计子空间时所需的点数与维度无关的间隙类型。

Feb, 2024

具有鉴别信息的私有集生成

本研究提出了一种基于判别信息的生成模型训练方法，通过优化一小部分样本的代表性，以实现高维数据的差分隐私保护，并有效提升了现有生成模型的样本效用。

Nov, 2022

PrivSyn：差分隐私数据合成

本文提出了 PrivSyn，第一个可以处理普通数据集（具有 100 个属性和域大小 $>2^{500}$）的自动合成数据生成方法，并在多个数据集上进行了广泛的评估，以展示我们的方法的性能。

Dec, 2020