神经网络何时在表格数据上优于增强树?
通过对大规模的实证研究,本文发现神经网络在结构化表格数据上与决策树具有竞争力,而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。
Feb, 2024
通过与传统树模型如 XGBoost 和随机森林的对比,研究发现,对于中等大小数据集(约 10K 个样本),树模型仍然是当前在表格数据上的最佳选择;研究还提出了神经网络在表格数据上建模的若干挑战,并为后续研究提供基准测试数据和计算资源。
Jul, 2022
该论文提出了一种新的网络结构,将 GNN 和 GBDT 训练在一起,以达到异质图表节点特征下最优化的效果,该模型经过广泛实验,证明在各种具有表格特征的图上性能显著提高。
Jan, 2021
使用 SSL 技术的基于 Transformer 的神经网络在欺诈检测任务中超越 GBDT 算法,在大规模实验中,预训练的 Transformer 模型在有限的微调数据上表现更加一致且需要较少的标记数据。
May, 2024
通过一个全面的基准测试,本文研究了深度表格方法和基于树的方法在各种任务类型、大小分布和领域中的性能排名以及影响深度表格方法成功的关键因素,并提取了对预测准确性起决定性作用的元特征。这些研究将进一步促进表格数据的研究。
Jul, 2024
本文提出了一种新的深度学习架构 Neural Oblivious Decision Ensembles(NODE)用于处理表格数据,并且与目前主要的 GBDT 方案相比,在大量的数据集上展示了超越竞争方案的表现。
Sep, 2019
本文为研究人员和从业人员提供了深度学习方法在表格数据上的最新进展和应用,主要从数据变换、特殊网络架构、正则化模型和数据生成四个方面进行了探讨,并且在 5 个不同的实际数据集上,将传统机器学习方法与 11 种深度学习方法进行了实证比较,结果表明传统机器学习方法在有监督学习任务上仍优于基于深度学习的算法,提示相关研究有点停滞不前。
Oct, 2021
提出了一种名为 Regularization Learning Networks (RLNs) 的方法,通过引入一个有效的超参数调整方案来优化 DNN 在 tabular 数据集上的性能,获得了与 GBT 相当的性能。同时,RLNs 还产生了极度稀疏的网络,消除了高达 98% 的网络边缘和 82%的输入特征,提供了更可解释的模型,并揭示了网络分配给不同输入的重要性。
May, 2018
本论文研究在神经网络中,如何利用 13 种正则化技术来优化多层感知机(MLP)在 40 个表格数据集上的性能,并证明了良好正则化的 MLP 可以明显优于最新的神经网络架构和传统机器学习方法。
Jun, 2021