生成森林
我们提出了一种基于流的生成模型,专门用于表格数据的密度回归任务,通过在初始均匀噪声上应用一系列基于树的分段线性变换,最终生成给定协变量的复杂条件密度的 (单变量或多变量) 结果样本,并允许对样本空间中任意点的配准条件密度进行高效的分析评估。
Jun, 2024
构建更好的零样本和少样本生成能力的生成式表格基础模型 LaTable 在有限样本的条件下,在实例内分布生成方面胜过基线,并在生成超出分布的数据集时表现更好。
Jun, 2024
本篇论文设计了 TGAN 来处理离散与连续的表格数据,使用 7 个模拟数据集和 8 个真实数据集进行比较,结果表明 TGAN 在大多数的真实数据集上比贝叶斯方法表现更好,而其他深度学习方法则表现欠佳。
Jul, 2019
通过与传统树模型如 XGBoost 和随机森林的对比,研究发现,对于中等大小数据集(约 10K 个样本),树模型仍然是当前在表格数据上的最佳选择;研究还提出了神经网络在表格数据上建模的若干挑战,并为后续研究提供基准测试数据和计算资源。
Jul, 2022
合成数据生成已成为金融机构的重要课题,本研究提出了一种新的合成数据生成框架,将监督组件与元学习方法结合,为特定下游任务学习最佳混合分布的已有合成分布。
Sep, 2023
本文为研究人员和从业人员提供了深度学习方法在表格数据上的最新进展和应用,主要从数据变换、特殊网络架构、正则化模型和数据生成四个方面进行了探讨,并且在 5 个不同的实际数据集上,将传统机器学习方法与 11 种深度学习方法进行了实证比较,结果表明传统机器学习方法在有监督学习任务上仍优于基于深度学习的算法,提示相关研究有点停滞不前。
Oct, 2021
该文章综合介绍了最近在通过深度生成模型生成合成数据方面的研究进展,重点关注表格数据集。我们特别概述了在隐私敏感数据背景下合成数据生成的重要性。此外,我们强调了使用深度生成模型相对于其他方法的优势,并详细解释了底层概念,包括无监督学习、神经网络和生成模型。该论文涵盖了在对表格数据集使用深度生成模型时涉及的挑战和考虑因素,如数据归一化、隐私问题和模型评估。本综述为对合成数据生成及其应用感兴趣的研究人员和实践者提供了有价值的资源。
Jul, 2023
本文介绍了 Tabular GAN(TGAN),这是一种可以生成表格数据(例如医学或教育记录)的生成对抗网络,利用深度神经网络生成高质量和完全合成的表格,同时生成离散和连续变量。在三个数据集上评估我们的模型时,我们发现 TGAN 在捕捉列之间的相关性和扩展大型数据集方面都优于传统的统计生成模型。
Nov, 2018
该论文提出了一种利用基于评分的扩散和条件流匹配生成和填补混合类型(连续和分类)表格数据的新方法。相对于依赖神经网络作为函数近似器的先前工作,我们使用了 XGBoost,一种流行的梯度提升树(GBT)方法。我们的方法在多个数据集上经验性地表明:当训练数据集是干净的或受到缺失数据影响时,它能够生成高度逼真的合成数据,并生成多样的合理数据填补。我们的方法经常优于深度学习生成方法,并且可以使用 CPU 并行训练,无需 GPU。为了方便使用,我们通过 PyPI 发布了我们的 Python 库和 CRAN 上的 R 包。
Sep, 2023
这篇论文提出了一种通用框架来合成更复杂的数据结构,其中包括复合和嵌套类型,并通过因果变换器构建了一种实际的解决方案,用于结构(类型映射)和列表(类型的重复实例),在标准基准数据集上的结果表明,这种方式的实现在机器学习实用性和统计相似性方面均明显优于当前最先进的模型,并且对于以前无法解决的具有多重嵌套和稀疏数据的两个复杂层次数据集表现出非常强的结果。
Feb, 2022