混合类型表格数据的连续扩散

Dec, 2023

Continuous Diffusion for Mixed-Type Tabular Data

Markus Mueller, Kathrin Gruber, Dennis Fok

TL;DR通过结合评分匹配和评分插值，我们在这篇论文中提出了一种针对混合类型表格数据的得分生成模型。模型考虑了特征异质性，并允许自适应、可学习的噪声调度以提高样本质量。实验结果表明，我们的模型在质量上始终优于最先进的基准模型，并且噪声调度设计中的异质性考虑提升了样本质量。

Abstract

score-based generative models (or diffusion models for short) have proven successful across many domains in generating text and image data. However, the consideration of →

score-based generative models diffusion models mixed-type tabular data feature heterogeneity noise schedules

发现论文，激发创造

用扩散模型合成平衡的混合类型表格数据

介绍了一种公平的扩散模型，用于生成平衡的敏感属性数据，并通过实证证据表明该方法在训练数据中有效地减轻了类别不平衡问题，同时保持生成样本的质量，并且在性能和公平性方面优于现有方法用于综合表格数据。

Apr, 2024

CoDi: 混合型表格合成的共进对比扩散模型

本研究提出了一种名为 CoDi 的方法，通过差分模型将连续变量和离散变量分开处理并相互条件，并引入对比学习方法进行负采样以进一步绑定扩散模型，以提高人工合成表格数据的准确性。

Apr, 2023

表格数据中的缺失值插值扩散模型

本文提出了一种用于 Tabular 数据的基于条件分数的扩散模型方法（TabCSDI），并研究了热点问题中的三种处理技术。实验结果表明与现有方法相比，TabCSDI 是有效的，同时也强调了分类嵌入技术的重要性。

Oct, 2022

类别数据的连续扩散

本文介绍了 CDCD 框架，该框架是一种对分类数据进行扩散建模的方法，同时保持了连续时间和输入空间的特性，并在多个语言建模任务中证明了其有效性。

Nov, 2022

MissDiff：在带有缺失值的表格数据上训练扩散模型

这项工作提出了一个统一且原则性的扩散式框架，用于在各种缺失机制下从数据中学习丢失值，并通过多个制表符数据集的评估证明了其优于当前最先进的扩散模型。

Jul, 2023

利用扩散和基于流的梯度增强树生成和填补表格数据

该论文提出了一种利用基于评分的扩散和条件流匹配生成和填补混合类型（连续和分类）表格数据的新方法。相对于依赖神经网络作为函数近似器的先前工作，我们使用了 XGBoost，一种流行的梯度提升树（GBT）方法。我们的方法在多个数据集上经验性地表明：当训练数据集是干净的或受到缺失数据影响时，它能够生成高度逼真的合成数据，并生成多样的合理数据填补。我们的方法经常优于深度学习生成方法，并且可以使用 CPU 并行训练，无需 GPU。为了方便使用，我们通过 PyPI 发布了我们的 Python 库和 CRAN 上的 R 包。

Sep, 2023

结构化数据生成扩散模型综述

本文综述了最近的扩散模型在结构化数据中的应用情况及相关研究工作，重点介绍了基于分数的扩散模型理论以及在数据驱动的常规任务和特定领域应用中采用结构化数据模型的先驱工作，分析和讨论了现有工作的局限性和挑战，并提出了潜在的研究方向。

Jun, 2023

基于扩散生成模型与评分匹配的变分视角

本文通过导出一个变分框架来推导连续时间生成扩散理论，并表明该理论中最小化匹配得分损失等价于最大化该理论内所提出的可逆 SDE 插件的似然度的下限。

Jun, 2021

表格数据填补和合成数据生成的扩散模型

我们提出了一种扩展的扩散模型，用于表格数据的数据填充和数据生成任务，通过引入条件注意机制、编码器 - 解码器 Transformer 和动态遮蔽来提高模型的性能。

Jul, 2024

扩散随机特征模型

我们提出了一种受扩散模型启发的深度随机特征模型，它具有可解释性，并给出了与具有相同可训练参数数量的全连接神经网络相当的数值结果。我们通过对采样数据分布和真实分布之间的得分匹配性质的属性来推导了随机特征的泛化界限，并通过在时尚 MNIST 数据集和乐器音频数据上生成样本来验证我们的发现。

Oct, 2023