BUFF：基于提升决策树的超快速流匹配

Apr, 2024

BUFF：基于提升决策树的超快速流匹配

BUFF: Boosted Decision Tree based Ultra-Fast Flow matching

Cheng Jiang, Sitian Qian, Huilin Qu

TL;DR基于树模型优于深度学习模型在处理表格数据任务方面的表现，我们采用条件流匹配生成模型并使用不同技术融合了 Gradient Boosted Trees 的使用，通过在多个公共数据集上进行多个分析任务的评估，展示了大多数高级仿真任务的训练和推理时间能够加速数个数量级。该应用还可以扩展至低级特征模拟和具备竞争性性能的条件生成。

Abstract

tabular data stands out as one of the most frequently encountered types in high energy physics. Unlike commonly homogeneous data such as pixelated images, simulating high-dimensional →

tabular data high energy physics tree-based models generative modeling gradient boosted trees

发现论文，激发创造

利用扩散和基于流的梯度增强树生成和填补表格数据

该论文提出了一种利用基于评分的扩散和条件流匹配生成和填补混合类型（连续和分类）表格数据的新方法。相对于依赖神经网络作为函数近似器的先前工作，我们使用了 XGBoost，一种流行的梯度提升树（GBT）方法。我们的方法在多个数据集上经验性地表明：当训练数据集是干净的或受到缺失数据影响时，它能够生成高度逼真的合成数据，并生成多样的合理数据填补。我们的方法经常优于深度学习生成方法，并且可以使用 CPU 并行训练，无需 GPU。为了方便使用，我们通过 PyPI 发布了我们的 Python 库和 CRAN 上的 R 包。

Sep, 2023

关系学习中的全面关注提升

基于树模型的注意机制结合与 (tabular data) 表格数据在 (gradient boosting) 梯度提升训练环境中学习，被证明在多个领域与包含树模型和神经网络模型的现有技术相比具有竞争力。

Feb, 2024

树流生成密度回归建模

我们提出了一种基于流的生成模型，专门用于表格数据的密度回归任务，通过在初始均匀噪声上应用一系列基于树的分段线性变换，最终生成给定协变量的复杂条件密度的 (单变量或多变量) 结果样本，并允许对样本空间中任意点的配准条件密度进行高效的分析评估。

Jun, 2024

生成森林

本研究论文介绍了一种用于密度建模和表格数据生成的基于树的生成模型，该模型提高了最新提案的建模能力，并提出了一种简化先前方法训练设置并显示提升一致性收敛性的训练算法。通过实验验证了我们方法在缺失数据插补和生成数据与真实数据对比方面的优质结果。

Aug, 2023

树状模型在表格数据上为何仍然优于深度学习？

通过与传统树模型如 XGBoost 和随机森林的对比，研究发现，对于中等大小数据集（约 10K 个样本），树模型仍然是当前在表格数据上的最佳选择；研究还提出了神经网络在表格数据上建模的若干挑战，并为后续研究提供基准测试数据和计算资源。

Jul, 2022

表格数据：关注力是您所需的全部吗？

通过对大规模的实证研究，本文发现神经网络在结构化表格数据上与决策树具有竞争力，而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。

Feb, 2024

Treeffuser：基于梯度提升树的条件扩散概率预测

Treeffuser 是一种易于使用的基于梯度提升树的条件扩散模型，用于概率预测，具备良好的预测分布校准能力，适用于多元、多峰、偏态响应的各种回归任务。

Jun, 2024

神经网络何时在表格数据上优于增强树？

该研究分析了在标签数据上使用神经网络（NN）和梯度增强决策树（GBDT）的性能差异，发现针对不同数据集，NN 和 GBDT 的表现各有千秋，需要根据数据集来选择合适的算法并进行超参数调优。

May, 2023

基于表格数据的联邦学习基准测试：比较基于树模型和神经网络的方法

本研究对水平联邦学习中的树模型和深度神经网络进行了对比，结果显示当前联邦增强的树模型在不同数据分区下表现优于联邦深度神经网络，并且联邦 XGBoost 模型表现最佳。此外，即使增加客户端数量，联邦树模型的性能仍优于联邦参数化模型。

May, 2024

扩散增强树

融合去噪扩散概率模型和梯度提升方法，引入扩散增强范式以解决监督学习问题。我们开发了扩散增强树（DBT），它可以被视为一种新的去噪扩散生成模型，其参数由决策树（每个扩散时间步长一个单一树）进行参数化，同时也是一种新的提升算法，可以把弱学习器结合成条件分布的强学习器，而不对其密度形式进行显式的参数化假设。通过实验证明了 DBT 相较于基于深度神经网络的扩散模型的优势，以及 DBT 在真实回归任务上的能力，并展示了将 DBT 应用于表格数据（欺诈检测）进行分类学习且具备学习推迟的能力。

Jun, 2024