本文提出了 PrivSyn,第一个可以处理普通数据集(具有 100 个属性和域大小 $>2^{500}$)的自动合成数据生成方法,并在多个数据集上进行了广泛的评估,以展示我们的方法的性能。
Dec, 2020
我们采用差分隐私的框架研究了敏感数据分析的方法,通过将均匀采样步骤替换为私有分布估计器,我们改进了 Boedihardjo 等人工作的算法,并提供了离散和连续分布的计算保证,适用于多种统计任务。
May, 2024
本研究旨在提供一个全面的流派统一的方案折衷了 PPDS 领域中的两种主要方法:统计方法和基于深度学习的方法,在提供了完整的参考表格和关键点摘要以及确定了实际应用中指导方法选择的准则之后,为 DLM 方法在私密图像合成方面提供了基准测试,并鉴别出 DP-MERF 是一种全能方法。
Jul, 2023
本文讨论隐私问题在数据驱动产品和服务中引起的关注,提出了一种利用差分隐私的生成式语言模型的简单、实用和有效方法,以生成有用的合成文本同时缓解隐私问题。经过广泛的实证分析,我们证明了我们的方法产生的合成数据在实用性上与其非私有对应物相当竞争,同时提供了强大的保护措施以防止潜在的隐私泄漏。
Oct, 2022
通过评估 Mann-Whitney U 检验在差分隐私合成生物医学数据上的 I 型和 II 型错误,本研究旨在确定在隐私保护合成数据上进行的统计假设检验是否可能导致测试的有效性丧失或功效降低。
Mar, 2024
本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法,通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优,然后利用该模型可以产生差分隐私合成数据集,同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同,还可用于调整同一模型等级的分类器。
Jun, 2023
文章介绍了差分隐私的优点及其在交互式查询的数据使用中的应用,同时指出了其局限性,强调需要注意其在个人数据采集、发布以及机器学习等领域中的滥用。
Nov, 2020
通过共享差分私有合成数据,利用合成数据集进行协同学习可以帮助不同方参与者更准确地估计目标统计数据,尤其对包含代表性不足群体数据的参与者,共享合成数据特别有助于做更好的分析。
Aug, 2023
本论文利用差分隐私算法对分布式和流数据进行分析,通过学习全局数据模型并保障差分隐私,提出了三种分布式学习贝叶斯网络模型的新方法,并针对流数据中的用户密度估计问题,提供了用户级别的隐私保护算法和改进策略。
本研究提出了一种首次相结合现有差分隐私机制生成综合性关系型数据库的算法,通过迭代优化各个合成表之间的关系,最小化其低阶边缘分布的近似误差,并保持参照完整性。最终,我们对该算法提供了差分隐私和理论效用保证。