使用语言模型进行私密生成表格数据
使用预训练的大型语言模型(LLMs),DP-LLMTGen 引入了一种新的框架来进行差分私有表格数据合成,通过微调过程模拟敏感数据集并生成多样的合成数据,有效地解决了实际挑战。
Jun, 2024
该文章综合介绍了最近在通过深度生成模型生成合成数据方面的研究进展,重点关注表格数据集。我们特别概述了在隐私敏感数据背景下合成数据生成的重要性。此外,我们强调了使用深度生成模型相对于其他方法的优势,并详细解释了底层概念,包括无监督学习、神经网络和生成模型。该论文涵盖了在对表格数据集使用深度生成模型时涉及的挑战和考虑因素,如数据归一化、隐私问题和模型评估。本综述为对合成数据生成及其应用感兴趣的研究人员和实践者提供了有价值的资源。
Jul, 2023
合成数据和生成模型在隐私保护的数据共享解决方案中迅速崛起,并通过在表格综合机上实施全面的实证分析,突出了五种最先进表格综合机的实用 - 隐私权衡,提出了一个新的差分隐私表格潜在扩散模型,称为 DP-TLDM,能够在保持可比较的隐私风险水平的同时,显著提高合成数据的实用性。
Mar, 2024
通过提出 Tabula,使用语言模型结构的表格数据合成器,我们揭示了使用为自然语言处理设计的预训练语言模型在表格数据合成领域的内在局限性,并通过一种令人满意的基础模型开展了针对表格数据合成的专用基础模型的研发。此外,我们提出了一种令牌序列压缩策略,可显著减少训练时间同时保持合成数据的质量。实验证明,使用语言模型结构而不加载训练有素的模型权重可以获得更好的表格数据合成起始模型。此外,之前针对其他表格数据训练的 Tabula 模型可作为新的表格数据合成任务的优秀基础模型,而且该令牌序列压缩方法可大幅降低模型的训练时间。结果表明,Tabula 相较于当前基于 LLMs 的最先进算法而言,平均每个时期减少 46.2% 的训练时间,并始终获得更高的合成数据效用。
Oct, 2023
使用全局差分隐私的方法,通过训练生成式语言模型并从中采样数据来保护数据分享者的隐私,并通过新的匹配损失设计自然语言提示,得出高质量的文本数据集,这些数据集不仅不会泄露原始数据的信息,而且还适合训练用于分析真实世界数据的模型,同样证明基于私有合成数据训练分类器的性能优于直接基于真实数据使用 DP-SGD 进行训练。
Oct, 2022
通过使用大型语言模型(Large Language Models,LLMs)生成合成数据解决分类不平衡问题,在 CSV 格式中采用新颖的分组提示方法,利用 LLMs 的上下文学习能力生成满足目标数据集要求和特征的数据,并通过随机词替换策略提高处理单调分类值的准确性和代表性。在八个真实公共数据集上广泛验证我们的方法,取得了优于现有方法的下游分类和回归任务性能,同时保持特征间的相关性并提高标识的效率。该研究对于解决机器学习应用中关于表格数据生成和处理类别不平衡的关键挑战具有重要意义。
Apr, 2024
综述中介绍了大规模语言建模在表格数据建模相关任务中的应用,包括预测、表格数据合成、问答和表格理解。通过归纳最新进展和总结数据集、度量标准和方法论,本综述发现了现有领域文献的优势、局限性、未开发的领域和研究间隙,并提供了相关代码和数据集的参考。期望以此为读者提供有关参考和深入见解,为他们在这个重要且快速进展的领域中有效应对挑战提供必备的工具和知识。
Feb, 2024