生成森林

Aug, 2023

Generative Forests

Richard Nock, Mathieu Guillame-Bert

TL;DR本研究论文介绍了一种用于密度建模和表格数据生成的基于树的生成模型，该模型提高了最新提案的建模能力，并提出了一种简化先前方法训练设置并显示提升一致性收敛性的训练算法。通过实验验证了我们方法在缺失数据插补和生成数据与真实数据对比方面的优质结果。

Abstract

tabular data represents one of the most prevalent form of data. When it comes to data generation, many approaches would learn a density for the data generation process, but would not necessarily end up with a sam

tabular data generative models density modeling training algorithm data generation

发现论文，激发创造

树流生成密度回归建模

我们提出了一种基于流的生成模型，专门用于表格数据的密度回归任务，通过在初始均匀噪声上应用一系列基于树的分段线性变换，最终生成给定协变量的复杂条件密度的 (单变量或多变量) 结果样本，并允许对样本空间中任意点的配准条件密度进行高效的分析评估。

Jun, 2024

LaTable: 大型表格模型的探索

构建更好的零样本和少样本生成能力的生成式表格基础模型 LaTable 在有限样本的条件下，在实例内分布生成方面胜过基线，并在生成超出分布的数据集时表现更好。

Jun, 2024

使用条件 GAN 建模表格数据

本篇论文设计了 TGAN 来处理离散与连续的表格数据，使用 7 个模拟数据集和 8 个真实数据集进行比较，结果表明 TGAN 在大多数的真实数据集上比贝叶斯方法表现更好，而其他深度学习方法则表现欠佳。

Jul, 2019

树状模型在表格数据上为何仍然优于深度学习？

通过与传统树模型如 XGBoost 和随机森林的对比，研究发现，对于中等大小数据集（约 10K 个样本），树模型仍然是当前在表格数据上的最佳选择；研究还提出了神经网络在表格数据上建模的若干挑战，并为后续研究提供基准测试数据和计算资源。

Jul, 2022

一种用于表格数据的有监督生成优化方法

合成数据生成已成为金融机构的重要课题，本研究提出了一种新的合成数据生成框架，将监督组件与元学习方法结合，为特定下游任务学习最佳混合分布的已有合成分布。

Sep, 2023

深度神经网络与表格数据：一份调查报告

本文为研究人员和从业人员提供了深度学习方法在表格数据上的最新进展和应用，主要从数据变换、特殊网络架构、正则化模型和数据生成四个方面进行了探讨，并且在 5 个不同的实际数据集上，将传统机器学习方法与 11 种深度学习方法进行了实证比较，结果表明传统机器学习方法在有监督学习任务上仍优于基于深度学习的算法，提示相关研究有点停滞不前。

Oct, 2021

深度生成模型、合成表格数据与差分隐私：概述与综述

该文章综合介绍了最近在通过深度生成模型生成合成数据方面的研究进展，重点关注表格数据集。我们特别概述了在隐私敏感数据背景下合成数据生成的重要性。此外，我们强调了使用深度生成模型相对于其他方法的优势，并详细解释了底层概念，包括无监督学习、神经网络和生成模型。该论文涵盖了在对表格数据集使用深度生成模型时涉及的挑战和考虑因素，如数据归一化、隐私问题和模型评估。本综述为对合成数据生成及其应用感兴趣的研究人员和实践者提供了有价值的资源。

Jul, 2023

使用生成对抗网络合成表格数据

本文介绍了 Tabular GAN（TGAN），这是一种可以生成表格数据（例如医学或教育记录）的生成对抗网络，利用深度神经网络生成高质量和完全合成的表格，同时生成离散和连续变量。在三个数据集上评估我们的模型时，我们发现 TGAN 在捕捉列之间的相关性和扩展大型数据集方面都优于传统的统计生成模型。

Nov, 2018

利用扩散和基于流的梯度增强树生成和填补表格数据

该论文提出了一种利用基于评分的扩散和条件流匹配生成和填补混合类型（连续和分类）表格数据的新方法。相对于依赖神经网络作为函数近似器的先前工作，我们使用了 XGBoost，一种流行的梯度提升树（GBT）方法。我们的方法在多个数据集上经验性地表明：当训练数据集是干净的或受到缺失数据影响时，它能够生成高度逼真的合成数据，并生成多样的合理数据填补。我们的方法经常优于深度学习生成方法，并且可以使用 CPU 并行训练，无需 GPU。为了方便使用，我们通过 PyPI 发布了我们的 Python 库和 CRAN 上的 R 包。

Sep, 2023

复杂数据的生成建模

这篇论文提出了一种通用框架来合成更复杂的数据结构，其中包括复合和嵌套类型，并通过因果变换器构建了一种实际的解决方案，用于结构（类型映射）和列表（类型的重复实例），在标准基准数据集上的结果表明，这种方式的实现在机器学习实用性和统计相似性方面均明显优于当前最先进的模型，并且对于以前无法解决的具有多重嵌套和稀疏数据的两个复杂层次数据集表现出非常强的结果。

Feb, 2022