PEARL: 私有嵌入和对抗重构学习合成数据
本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法,通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优,然后利用该模型可以产生差分隐私合成数据集,同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同,还可用于调整同一模型等级的分类器。
Jun, 2023
本文探讨了使用具有随机性生成模型的方法来实现隐私保护数据生成,通过将深度模型的连续模数限制在适当的范围内以获得隐私保护,并实验证明了其有效性。
Apr, 2023
本篇论文提出了一种基于不同 ially private 框架和卷积自编码器以及卷积生成对抗网络生成合成数据的方法,以应对使用医疗记录数据所面临的隐私困难,该方法能够捕捉到原始数据中存在的时间信息和特征相关性,并在有监督和无监督情况下使用公开可用的标准医疗数据集,优于现有的同类方法。
Dec, 2020
通过评估数据的统计相似性来衡量隐私是不可靠和不一致的,而生成模型只应以差分隐私为标准以保护数据隐私。本文针对领先公司提供的隐私度量指标进行分析,揭示了一些关键的推理缺陷,并提出了成功恢复生成模型中绝大部分用于训练的异常记录的重构攻击 ReconSyn。研究表明,仅将差分隐私应用于模型或使用低效的生成器不能减轻 ReconSyn 对隐私的泄露风险,因为泄露主要来自于度量指标。总体而言,我们的工作提醒从业人员不要偏离既定的隐私保护机制。
Dec, 2023
我们采用差分隐私的框架研究了敏感数据分析的方法,通过将均匀采样步骤替换为私有分布估计器,我们改进了 Boedihardjo 等人工作的算法,并提供了离散和连续分布的计算保证,适用于多种统计任务。
May, 2024
本文提出了一种基于局部差分隐私的生成对抗网络训练方法,通过熵正则化 Wasserstein 距离的组合使用来降噪数据分布,有效地缓解了正则化偏差和隐私噪声效应。
Jun, 2023
利用不同隐私保护方法在深度神经网络上进行私密训练,以实现维度较高的数据生成,并提出统一的方法以提供系统性的派生方法,满足不同用例的需求,探讨不同方法之间的优势、限制和内在相关性以启发未来研究,并提出前进的潜在途径以推动隐私保护学习领域的发展。
Sep, 2023
合成数据和生成模型在隐私保护的数据共享解决方案中迅速崛起,并通过在表格综合机上实施全面的实证分析,突出了五种最先进表格综合机的实用 - 隐私权衡,提出了一个新的差分隐私表格潜在扩散模型,称为 DP-TLDM,能够在保持可比较的隐私风险水平的同时,显著提高合成数据的实用性。
Mar, 2024