BUFF:基于提升决策树的超快速流匹配
该论文提出了一种利用基于评分的扩散和条件流匹配生成和填补混合类型(连续和分类)表格数据的新方法。相对于依赖神经网络作为函数近似器的先前工作,我们使用了 XGBoost,一种流行的梯度提升树(GBT)方法。我们的方法在多个数据集上经验性地表明:当训练数据集是干净的或受到缺失数据影响时,它能够生成高度逼真的合成数据,并生成多样的合理数据填补。我们的方法经常优于深度学习生成方法,并且可以使用 CPU 并行训练,无需 GPU。为了方便使用,我们通过 PyPI 发布了我们的 Python 库和 CRAN 上的 R 包。
Sep, 2023
基于树模型的注意机制结合与 (tabular data) 表格数据在 (gradient boosting) 梯度提升训练环境中学习,被证明在多个领域与包含树模型和神经网络模型的现有技术相比具有竞争力。
Feb, 2024
我们提出了一种基于流的生成模型,专门用于表格数据的密度回归任务,通过在初始均匀噪声上应用一系列基于树的分段线性变换,最终生成给定协变量的复杂条件密度的 (单变量或多变量) 结果样本,并允许对样本空间中任意点的配准条件密度进行高效的分析评估。
Jun, 2024
本研究论文介绍了一种用于密度建模和表格数据生成的基于树的生成模型,该模型提高了最新提案的建模能力,并提出了一种简化先前方法训练设置并显示提升一致性收敛性的训练算法。通过实验验证了我们方法在缺失数据插补和生成数据与真实数据对比方面的优质结果。
Aug, 2023
通过与传统树模型如 XGBoost 和随机森林的对比,研究发现,对于中等大小数据集(约 10K 个样本),树模型仍然是当前在表格数据上的最佳选择;研究还提出了神经网络在表格数据上建模的若干挑战,并为后续研究提供基准测试数据和计算资源。
Jul, 2022
通过对大规模的实证研究,本文发现神经网络在结构化表格数据上与决策树具有竞争力,而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。
Feb, 2024
Treeffuser 是一种易于使用的基于梯度提升树的条件扩散模型,用于概率预测,具备良好的预测分布校准能力,适用于多元、多峰、偏态响应的各种回归任务。
Jun, 2024
该研究分析了在标签数据上使用神经网络(NN)和梯度增强决策树(GBDT)的性能差异,发现针对不同数据集,NN 和 GBDT 的表现各有千秋,需要根据数据集来选择合适的算法并进行超参数调优。
May, 2023
本研究对水平联邦学习中的树模型和深度神经网络进行了对比,结果显示当前联邦增强的树模型在不同数据分区下表现优于联邦深度神经网络,并且联邦 XGBoost 模型表现最佳。此外,即使增加客户端数量,联邦树模型的性能仍优于联邦参数化模型。
May, 2024
融合去噪扩散概率模型和梯度提升方法,引入扩散增强范式以解决监督学习问题。我们开发了扩散增强树(DBT),它可以被视为一种新的去噪扩散生成模型,其参数由决策树(每个扩散时间步长一个单一树)进行参数化,同时也是一种新的提升算法,可以把弱学习器结合成条件分布的强学习器,而不对其密度形式进行显式的参数化假设。通过实验证明了 DBT 相较于基于深度神经网络的扩散模型的优势,以及 DBT 在真实回归任务上的能力,并展示了将 DBT 应用于表格数据(欺诈检测)进行分类学习且具备学习推迟的能力。
Jun, 2024