Sep, 2023

利用扩散和基于流的梯度增强树生成和填补表格数据

TL;DR该论文提出了一种利用基于评分的扩散和条件流匹配生成和填补混合类型(连续和分类)表格数据的新方法。相对于依赖神经网络作为函数近似器的先前工作,我们使用了XGBoost,一种流行的梯度提升树(GBT)方法。我们的方法在多个数据集上经验性地表明:当训练数据集是干净的或受到缺失数据影响时,它能够生成高度逼真的合成数据,并生成多样的合理数据填补。我们的方法经常优于深度学习生成方法,并且可以使用CPU并行训练,无需GPU。为了方便使用,我们通过PyPI发布了我们的Python库和CRAN上的R包。