神经网络何时在表格数据上优于增强树？

May, 2023

神经网络何时在表格数据上优于增强树？

When Do Neural Nets Outperform Boosted Trees on Tabular Data?

Duncan McElfresh, Sujay Khandagale, Jonathan Valverde, Vishak Prasad C, Ganesh Ramakrishnan...

TL;DR该研究分析了在标签数据上使用神经网络（NN）和梯度增强决策树（GBDT）的性能差异，发现针对不同数据集，NN 和 GBDT 的表现各有千秋，需要根据数据集来选择合适的算法并进行超参数调优。

Abstract

tabular data is one of the most commonly used types of data in machine learning. Despite recent advances in neural nets (NNs) for tabular data

tabular data neural nets gradient-boosted decision trees hyperparameter tuning skewed feature distributions

发现论文，激发创造

表格数据：关注力是您所需的全部吗？

通过对大规模的实证研究，本文发现神经网络在结构化表格数据上与决策树具有竞争力，而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。

Feb, 2024

树状模型在表格数据上为何仍然优于深度学习？

通过与传统树模型如 XGBoost 和随机森林的对比，研究发现，对于中等大小数据集（约 10K 个样本），树模型仍然是当前在表格数据上的最佳选择；研究还提出了神经网络在表格数据上建模的若干挑战，并为后续研究提供基准测试数据和计算资源。

Jul, 2022

Boost then Convolve: 梯度提升相遇图神经网络

该论文提出了一种新的网络结构，将 GNN 和 GBDT 训练在一起，以达到异质图表节点特征下最优化的效果，该模型经过广泛实验，证明在各种具有表格特征的图上性能显著提高。

Jan, 2021

表格数据：深度学习不是你所需要的全部

比较了深度学习模型和 XGBoost 模型在表格数据上的性能和调整，结果表明 XGBoost 模型在所涉及的数据集上表现更好并需要更少的调整。

Jun, 2021

应用表格转换器挑战 Booking.com 诈骗检测中的梯度提升决策树

使用 SSL 技术的基于 Transformer 的神经网络在欺诈检测任务中超越 GBDT 算法，在大规模实验中，预训练的 Transformer 模型在有限的微调数据上表现更加一致且需要较少的标记数据。

May, 2024

深度学习在表格数据上的研究

通过一个全面的基准测试，本文研究了深度表格方法和基于树的方法在各种任务类型、大小分布和领域中的性能排名以及影响深度表格方法成功的关键因素，并提取了对预测准确性起决定性作用的元特征。这些研究将进一步促进表格数据的研究。

Jul, 2024

用于表格数据深度学习的神经无意识决策集合

本文提出了一种新的深度学习架构 Neural Oblivious Decision Ensembles（NODE）用于处理表格数据，并且与目前主要的 GBDT 方案相比，在大量的数据集上展示了超越竞争方案的表现。

Sep, 2019

深度神经网络与表格数据：一份调查报告

本文为研究人员和从业人员提供了深度学习方法在表格数据上的最新进展和应用，主要从数据变换、特殊网络架构、正则化模型和数据生成四个方面进行了探讨，并且在 5 个不同的实际数据集上，将传统机器学习方法与 11 种深度学习方法进行了实证比较，结果表明传统机器学习方法在有监督学习任务上仍优于基于深度学习的算法，提示相关研究有点停滞不前。

Oct, 2021

正则化学习网络：表格数据的深度学习

提出了一种名为 Regularization Learning Networks (RLNs) 的方法，通过引入一个有效的超参数调整方案来优化 DNN 在 tabular 数据集上的性能，获得了与 GBT 相当的性能。同时，RLNs 还产生了极度稀疏的网络，消除了高达 98% 的网络边缘和 82％的输入特征，提供了更可解释的模型，并揭示了网络分配给不同输入的重要性。

May, 2018

优化良好的简单神经网络在表格数据集上表现优异

本论文研究在神经网络中，如何利用 13 种正则化技术来优化多层感知机（MLP）在 40 个表格数据集上的性能，并证明了良好正则化的 MLP 可以明显优于最新的神经网络架构和传统机器学习方法。

Jun, 2021