通过结合评分匹配和评分插值,我们在这篇论文中提出了一种针对混合类型表格数据的得分生成模型。模型考虑了特征异质性,并允许自适应、可学习的噪声调度以提高样本质量。实验结果表明,我们的模型在质量上始终优于最先进的基准模型,并且噪声调度设计中的异质性考虑提升了样本质量。
Dec, 2023
本研究提出了一种名为 CoDi 的方法,通过差分模型将连续变量和离散变量分开处理并相互条件,并引入对比学习方法进行负采样以进一步绑定扩散模型,以提高人工合成表格数据的准确性。
Apr, 2023
借助扩散模型,我们使用自编码器架构生成合成表格数据,在比较现有的合成器的基础上,我们的模型生成的合成表格与真实数据具有良好的统计保真度,并在机器学习任务中表现出色,尤其是在捕捉特征之间的相关性方面。
Oct, 2023
通过使用生成模型特别是扩散模型,本研究引入了‘FinDiff',这是一种用于生成逼真金融表格数据的扩散模型,可用于各种监管下游任务,如经济情景建模、压力测试和欺诈检测,同时保证高保真度、隐私性和实用性。
Sep, 2023
这项工作提出了一个统一且原则性的扩散式框架,用于在各种缺失机制下从数据中学习丢失值,并通过多个制表符数据集的评估证明了其优于当前最先进的扩散模型。
Jul, 2023
TABSYN 是一种利用扩散模型在变分自动编码器(VAE)构建的潜在空间中合成表格数据的方法,具有处理不同数据类型、优化潜在嵌入分布以生成高质量合成数据、以及快速合成速度的优势,并且在六个数据集上的实验证明,相比竞争方法,TABSYN 在列分布和列相关性估计方面减少了 86% 和 67% 的错误率。
使用扩散模型生成混合类型的电子病历在数据质量、效用和增强方面超过其他现有模型,但在隐私方面存在同质化风险。
Feb, 2023
优化生成模型的质量和隐私之间的平衡,通过引入关注机制学习可逆的表格表示和差分隐私扩散模型来合成高质量的表格数据。
Aug, 2023
本文综述了最近的扩散模型在结构化数据中的应用情况及相关研究工作,重点介绍了基于分数的扩散模型理论以及在数据驱动的常规任务和特定领域应用中采用结构化数据模型的先驱工作,分析和讨论了现有工作的局限性和挑战,并提出了潜在的研究方向。
Jun, 2023
本文提出了一种用于 Tabular 数据的基于条件分数的扩散模型方法(TabCSDI),并研究了热点问题中的三种处理技术。实验结果表明与现有方法相比,TabCSDI 是有效的,同时也强调了分类嵌入技术的重要性。
Oct, 2022