差分隐私数据合成方法比较研究

Feb, 2016

Comparative Study of Differentially Private Data Synthesis Methods

Claire McKay Bowen, Fang Liu

TL;DR本研究探讨了当前的差分隐私数据合成技术对于发布原始数据的个人级别代理数据的技术概念，以及通过广泛的模拟研究评估每种数据合成技术的统计效用和推断属性，为不公开数据的发布提供了差分隐私的实际可行性和效用，同时提出了未来的研究方向。

Abstract

When sharing data among researchers or releasing data for public use, there is a risk of exposing sensitive information of individuals in the data set. data synthesis (DS) is a statistical disclosure limitation t

data synthesis differential privacy statistical disclosure limitation privacy guarantee surrogate data

发现论文，激发创造

PrivSyn：差分隐私数据合成

本文提出了 PrivSyn，第一个可以处理普通数据集（具有 100 个属性和域大小 $>2^{500}$）的自动合成数据生成方法，并在多个数据集上进行了广泛的评估，以展示我们的方法的性能。

Dec, 2020

具有私密密度估计的差分隐私合成数据

我们采用差分隐私的框架研究了敏感数据分析的方法，通过将均匀采样步骤替换为私有分布估计器，我们改进了 Boedihardjo 等人工作的算法，并提供了离散和连续分布的计算保证，适用于多种统计任务。

May, 2024

SoK：隐私保护数据合成

本研究旨在提供一个全面的流派统一的方案折衷了 PPDS 领域中的两种主要方法：统计方法和基于深度学习的方法，在提供了完整的参考表格和关键点摘要以及确定了实际应用中指导方法选择的准则之后，为 DLM 方法在私密图像合成方面提供了基准测试，并鉴别出 DP-MERF 是一种全能方法。

Jul, 2023

差分隐私的合成文本生成：一个简单实用的方法

本文讨论隐私问题在数据驱动产品和服务中引起的关注，提出了一种利用差分隐私的生成式语言模型的简单、实用和有效方法，以生成有用的合成文本同时缓解隐私问题。经过广泛的实证分析，我们证明了我们的方法产生的合成数据在实用性上与其非私有对应物相当竞争，同时提供了强大的保护措施以防止潜在的隐私泄漏。

Oct, 2022

差分隐私合成数据是否导致合成发现？

通过评估 Mann-Whitney U 检验在差分隐私合成生物医学数据上的 I 型和 II 型错误，本研究旨在确定在隐私保护合成数据上进行的统计假设检验是否可能导致测试的有效性丧失或功效降低。

Mar, 2024

利用大型语言模型生成私有合成文本

本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法，通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优，然后利用该模型可以产生差分隐私合成数据集，同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同，还可用于调整同一模型等级的分类器。

Jun, 2023

差分隐私的极限（及其在数据发布和机器学习中的误用）

文章介绍了差分隐私的优点及其在交互式查询的数据使用中的应用，同时指出了其局限性，强调需要注意其在个人数据采集、发布以及机器学习等领域中的滥用。

Nov, 2020

使用差分隐私合成双胞胎数据在分布式数据中进行合作学习

通过共享差分私有合成数据，利用合成数据集进行协同学习可以帮助不同方参与者更准确地估计目标统计数据，尤其对包含代表性不足群体数据的参与者，共享合成数据特别有助于做更好的分析。

Aug, 2023

具有差分隐私的数据分析

本论文利用差分隐私算法对分布式和流数据进行分析，通过学习全局数据模型并保障差分隐私，提出了三种分布式学习贝叶斯网络模型的新方法，并针对流数据中的用户密度估计问题，提供了用户级别的隐私保护算法和改进策略。

Jul, 2023

将差分隐私合成数据应用于关系数据库的适应性

本研究提出了一种首次相结合现有差分隐私机制生成综合性关系型数据库的算法，通过迭代优化各个合成表之间的关系，最小化其低阶边缘分布的近似误差，并保持参照完整性。最终，我们对该算法提供了差分隐私和理论效用保证。

May, 2024