合成数据和生成模型在隐私保护的数据共享解决方案中迅速崛起,并通过在表格综合机上实施全面的实证分析,突出了五种最先进表格综合机的实用 - 隐私权衡,提出了一个新的差分隐私表格潜在扩散模型,称为 DP-TLDM,能够在保持可比较的隐私风险水平的同时,显著提高合成数据的实用性。
Mar, 2024
优化生成模型的质量和隐私之间的平衡,通过引入关注机制学习可逆的表格表示和差分隐私扩散模型来合成高质量的表格数据。
Aug, 2023
利用差分隐私的知识蒸馏算法,通过利用合成数据和教师模型的输出分布,成功地在压缩自回归型大型语言模型的同时保护训练数据的隐私。
提出一种方法将表格中的每一行视为句子,并使用差分隐私训练语言模型,以实现在多个数据集上建模表格数据的竞争结果。
Jun, 2023
该文章综合介绍了最近在通过深度生成模型生成合成数据方面的研究进展,重点关注表格数据集。我们特别概述了在隐私敏感数据背景下合成数据生成的重要性。此外,我们强调了使用深度生成模型相对于其他方法的优势,并详细解释了底层概念,包括无监督学习、神经网络和生成模型。该论文涵盖了在对表格数据集使用深度生成模型时涉及的挑战和考虑因素,如数据归一化、隐私问题和模型评估。本综述为对合成数据生成及其应用感兴趣的研究人员和实践者提供了有价值的资源。
Jul, 2023
在大数据时代,访问丰富的数据来推动研究进展至关重要,然而在医疗领域,这种数据往往由于隐私问题或高成本而无法获得。生成合成数据可以解决这个问题,但现有模型通常需要大量数据进行训练,与我们解决数据稀缺的目标相矛盾。为了应对这一挑战,我们提出了一个新的框架,通过利用大型语言模型(LLMs)作为推广对抗网络(GAN)的优化器,并将数据生成过程作为上下文信息进行了改进,显著提高了在小样本情况下生成合成表格数据的质量。我们在公共和私有数据集上的实验结果表明,我们的模型在生成更高质量的合成数据用于后续任务时,保持真实数据的隐私方面优于几个最先进的模型。
Jun, 2024
该研究提出了一种新方法,使用差分隐私的大型语言模型开发隐私保护的大规模推荐系统,其方法可以通过在一个查询生成任务中微调预训练的 LLM 模型,生成私有的合成查询以供下游非私有推荐训练使用,同时不会增加任何额外的隐私成本,其在有效的深度检索模型上进行了安全训练的能力得到了验证,并观察到与直接 DP 训练检索模型的方法相比,在不损害查询级隐私保障的前提下显著提高了检索质量。
May, 2023
使用全局差分隐私的方法,通过训练生成式语言模型并从中采样数据来保护数据分享者的隐私,并通过新的匹配损失设计自然语言提示,得出高质量的文本数据集,这些数据集不仅不会泄露原始数据的信息,而且还适合训练用于分析真实世界数据的模型,同样证明基于私有合成数据训练分类器的性能优于直接基于真实数据使用 DP-SGD 进行训练。
Oct, 2022
本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法,通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优,然后利用该模型可以产生差分隐私合成数据集,同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同,还可用于调整同一模型等级的分类器。
本文讨论隐私问题在数据驱动产品和服务中引起的关注,提出了一种利用差分隐私的生成式语言模型的简单、实用和有效方法,以生成有用的合成文本同时缓解隐私问题。经过广泛的实证分析,我们证明了我们的方法产生的合成数据在实用性上与其非私有对应物相当竞争,同时提供了强大的保护措施以防止潜在的隐私泄漏。