用扩散模型合成平衡的混合类型表格数据

Apr, 2024

用扩散模型合成平衡的混合类型表格数据

Balanced Mixed-Type Tabular Data Synthesis with Diffusion Models

Zeyu Yang, Peikun Guo, Khadija Zanna, Akane Sano

TL;DR介绍了一种公平的扩散模型，用于生成平衡的敏感属性数据，并通过实证证据表明该方法在训练数据中有效地减轻了类别不平衡问题，同时保持生成样本的质量，并且在性能和公平性方面优于现有方法用于综合表格数据。

Abstract

diffusion models have emerged as a robust framework for various generative tasks, such as image and audio synthesis, and have also demonstrated a remarkable ability to generate mixed-type tabular data comprising

diffusion models generative tasks mixed-type tabular data balanced data fairness

发现论文，激发创造

混合类型表格数据的连续扩散

通过结合评分匹配和评分插值，我们在这篇论文中提出了一种针对混合类型表格数据的得分生成模型。模型考虑了特征异质性，并允许自适应、可学习的噪声调度以提高样本质量。实验结果表明，我们的模型在质量上始终优于最先进的基准模型，并且噪声调度设计中的异质性考虑提升了样本质量。

Dec, 2023

CoDi: 混合型表格合成的共进对比扩散模型

本研究提出了一种名为 CoDi 的方法，通过差分模型将连续变量和离散变量分开处理并相互条件，并引入对比学习方法进行负采样以进一步绑定扩散模型，以提高人工合成表格数据的准确性。

Apr, 2023

AutoDiff: 结合自编码器和扩散模型进行表格数据合成

借助扩散模型，我们使用自编码器架构生成合成表格数据，在比较现有的合成器的基础上，我们的模型生成的合成表格与真实数据具有良好的统计保真度，并在机器学习任务中表现出色，尤其是在捕捉特征之间的相关性方面。

Oct, 2023

FinDiff: 金融表格数据生成的扩散模型

通过使用生成模型特别是扩散模型，本研究引入了‘FinDiff'，这是一种用于生成逼真金融表格数据的扩散模型，可用于各种监管下游任务，如经济情景建模、压力测试和欺诈检测，同时保证高保真度、隐私性和实用性。

Sep, 2023

MissDiff：在带有缺失值的表格数据上训练扩散模型

这项工作提出了一个统一且原则性的扩散式框架，用于在各种缺失机制下从数据中学习丢失值，并通过多个制表符数据集的评估证明了其优于当前最先进的扩散模型。

Jul, 2023

在潜在空间中使用基于评分的扩散方法合成混合类型的表格数据

TABSYN 是一种利用扩散模型在变分自动编码器（VAE）构建的潜在空间中合成表格数据的方法，具有处理不同数据类型、优化潜在嵌入分布以生成高质量合成数据、以及快速合成速度的优势，并且在六个数据集上的实验证明，相比竞争方法，TABSYN 在列分布和列相关性估计方面减少了 86% 和 67% 的错误率。

Oct, 2023

使用扩散模型综合混合类型的电子健康记录

使用扩散模型生成混合类型的电子病历在数据质量、效用和增强方面超过其他现有模型，但在隐私方面存在同质化风险。

Feb, 2023

在差分隐私下生成表格数据集

优化生成模型的质量和隐私之间的平衡，通过引入关注机制学习可逆的表格表示和差分隐私扩散模型来合成高质量的表格数据。

Aug, 2023

结构化数据生成扩散模型综述

本文综述了最近的扩散模型在结构化数据中的应用情况及相关研究工作，重点介绍了基于分数的扩散模型理论以及在数据驱动的常规任务和特定领域应用中采用结构化数据模型的先驱工作，分析和讨论了现有工作的局限性和挑战，并提出了潜在的研究方向。

Jun, 2023

表格数据中的缺失值插值扩散模型

本文提出了一种用于 Tabular 数据的基于条件分数的扩散模型方法（TabCSDI），并研究了热点问题中的三种处理技术。实验结果表明与现有方法相比，TabCSDI 是有效的，同时也强调了分类嵌入技术的重要性。

Oct, 2022