隐私保护数据合成的可信否认
研究统计隐私的目标之一是构建一个数据发布机制,它可以在保护个人隐私的同时保留信息内容。本文从统计角度考虑差分隐私,研究满足差分隐私要求的数据发布机制,并比较它们的收敛速度。研究表明,指数机制的准确性与经验分布在真实分布周围集中的概率密切相关。
Nov, 2008
我们采用差分隐私的框架研究了敏感数据分析的方法,通过将均匀采样步骤替换为私有分布估计器,我们改进了 Boedihardjo 等人工作的算法,并提供了离散和连续分布的计算保证,适用于多种统计任务。
May, 2024
本文提出了一种基于差分隐私的机制,以保证数据查询的数据隐私和查询效用之间的平衡。机制包含了每个可能的用户的期望最小化的代价函数,并且针对每个固定数量的查询和差分隐私级别,存在一种几何机制可以同时保证每个可能用户的最佳实用性,这是一种极强的实用性保障。
Nov, 2008
本文提出了 PrivSyn,第一个可以处理普通数据集(具有 100 个属性和域大小 $>2^{500}$)的自动合成数据生成方法,并在多个数据集上进行了广泛的评估,以展示我们的方法的性能。
Dec, 2020
本文讨论隐私问题在数据驱动产品和服务中引起的关注,提出了一种利用差分隐私的生成式语言模型的简单、实用和有效方法,以生成有用的合成文本同时缓解隐私问题。经过广泛的实证分析,我们证明了我们的方法产生的合成数据在实用性上与其非私有对应物相当竞争,同时提供了强大的保护措施以防止潜在的隐私泄漏。
Oct, 2022
本研究探讨了当前的差分隐私数据合成技术对于发布原始数据的个人级别代理数据的技术概念,以及通过广泛的模拟研究评估每种数据合成技术的统计效用和推断属性,为不公开数据的发布提供了差分隐私的实际可行性和效用,同时提出了未来的研究方向。
Feb, 2016
该研究提出了一种名为 table-GAN 的方法,使用生成对抗网络(GANs)合成伪造表格,用于保证数据匿名性和模型兼容性。实验证明,该方法在隐私和模型兼容性之间取得平衡,同时解决了数据泄露问题。
Jun, 2018
本文探讨了使用具有随机性生成模型的方法来实现隐私保护数据生成,通过将深度模型的连续模数限制在适当的范围内以获得隐私保护,并实验证明了其有效性。
Apr, 2023
提出了一种基于隐私保护的分阶段生成模型(P3GM),通过采用分阶段的学习过程,P3GM 可以更好地处理高维数据的隐私保护数据合成问题,并在数据挖掘中的合成数据任务中表现出更高的准确性。
Jun, 2020
通过对真实临床记录进行去识别并生成合成临床记录,我们发现合成数据表现出与真实数据相似的隐私问题,从而引发了合成临床记录是否可以成为敏感真实记录更好替代品的进一步研究的问题。
Jan, 2024