私人合成数据发布的新型高效算法
研究了通过矩阵机制方法,针对支持一组特定数量的问题而调整的合成数据集,在差分隐私下生成合成数据的方法及其对解析一组线性计数查询的困难度的影响,发现查询量的难度与行列式物理特性相关。
Feb, 2012
我们采用差分隐私的框架研究了敏感数据分析的方法,通过将均匀采样步骤替换为私有分布估计器,我们改进了 Boedihardjo 等人工作的算法,并提供了离散和连续分布的计算保证,适用于多种统计任务。
May, 2024
在线差分隐私合成数据生成算法,针对数据流和无限时间范围内的超立方体数据,通过在线算法在每个时间 t 生成差分隐私合成数据集,实现在 1-Wasserstein 距离下的近似最优精确度约束。
Feb, 2024
通过利用公共数据来提高私人学习算法的性能,本研究提出了第一种具有计算有效性的算法,以确保在满足与私人样本相关的差分隐私的同时,当私人数据分布足够接近公共数据时也能保证学习效果,并且在函数类可非私密学习时可进行私人学习的证明。
Feb, 2024
本文提出了 PrivSyn,第一个可以处理普通数据集(具有 100 个属性和域大小 $>2^{500}$)的自动合成数据生成方法,并在多个数据集上进行了广泛的评估,以展示我们的方法的性能。
Dec, 2020
提出了一种新的算法,用于发布对包括 k 路边际在内的非常大量的统计查询回答,该算法采用连续松弛的投影机制,使其在隐私数据集上回答查询并尝试找到最接近噪声回答的合成数据集,并通过不断适应地发现在其(松弛的)合成数据上具有高误差的查询,以达到节省隐私预算的目的,通过使用 ML 优化技术和工具,该方法在许多情况下优于现有算法。
Mar, 2021
本研究提出了一种首次相结合现有差分隐私机制生成综合性关系型数据库的算法,通过迭代优化各个合成表之间的关系,最小化其低阶边缘分布的近似误差,并保持参照完整性。最终,我们对该算法提供了差分隐私和理论效用保证。
May, 2024
提出了基于空间划分技术的差分隐私合成数据生成算法,可以保护数据隐私并生成与原始数据类似的数据,具有可解释性、透明性和可扩展性,并且在实验中表现出相比之前方法更优的效果。
Jun, 2023
本文提出了 Private-GSD,一种基于零阶优化技术的私人遗传算法,可以高效生成不同 ially private 的合成数据,以近似具有敏感性数据集的统计性质,并通过实验证明了在不可导查询的正确性和性能上的优越性。
Jun, 2023