使用深度生成模型在不泄露敏感数据的情况下进行数据生成和训练。该方法通过独立的特征函数和对抗重新加权目标实现,并且在多个数据集上的实证评估表明,在合理的隐私级别下,我们的方法优于其他方法。
Jun, 2021
私密永恒预测(Private Everlasting Prediction,PEP)是一种实现差分隐私学习的模型,它通过黑盒访问 “预测神谕” 来预测来自基础分布的无标签样本的标签,并改进了前期工作的鲁棒性和样本复杂性。
Jan, 2024
jam-pgm 是一种扩展的自适应测量框架,能够在选择公共数据和私有数据之间进行联合,并将公共数据纳入基于图模型的机制,从而在公共数据分布存在偏差时,能够胜过公共辅助和非公共辅助的合成数据生成机制。
Mar, 2024
我们提出了一种名为 Aug-PE 的增强版 PE 算法,应用于文本的复杂情境,通过 API 访问大型语言模型,生成差分隐私的合成文本,实验证明 Aug-PE 可以产生具有竞争性效用的差分隐私合成文本,从而便捷地在隐私保护的语言模型应用中提供更可访问的路线。
我们采用差分隐私的框架研究了敏感数据分析的方法,通过将均匀采样步骤替换为私有分布估计器,我们改进了 Boedihardjo 等人工作的算法,并提供了离散和连续分布的计算保证,适用于多种统计任务。
May, 2024
利用 API 来生成差分隐私合成数据的方法(DPSDA),不需要模型训练,通过 Private Evolution(PE)框架解决了这个问题,在 synthetic images 取得了很好的效果,同样适用于处理像 Stable Diffusion 这样的大型基础模型。
May, 2023
通过评估 Mann-Whitney U 检验在差分隐私合成生物医学数据上的 I 型和 II 型错误,本研究旨在确定在隐私保护合成数据上进行的统计假设检验是否可能导致测试的有效性丧失或功效降低。
本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法,通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优,然后利用该模型可以产生差分隐私合成数据集,同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同,还可用于调整同一模型等级的分类器。
Jun, 2023
本研究提出了一种新的方法:Truncated Exponential Mechanism(TEM),允许使用任何距离度量来对语言表示进行数据隐私转化,并在对该方法进行实证比较时发现,在保障数据隐私的同时,能够提供更大的度量选择自由度和更好的实验效用。
Jul, 2021
对比真实数据,研究调查了采用差分隐私合成数据可以替代机器学习流程中的真实数据,并确定了训练和评估机器学习模型的最有效的合成数据生成技术。结果显示,基于边缘分布的合成数据生成器能够获取与真实数据相似的实用性和公平性特征。
Oct, 2023